Microsoft ने VALL-E नामक एक आर्टिफिशियल इंटेलिजेंस टूल की घोषणा की है जो मानव आवाजों के ठोस संकेत पैदा कर सकता है। उदाहरण के लिए केवल 3-सेकंड के ध्वनि नमूने की आवश्यकता होगी।
VALL-E को 7,000 से अधिक विभिन्न लोगों के 60,000 घंटों के अंग्रेजी भाषण डेटा पर प्रशिक्षित किया गया था। कई AI उपकरणों के विपरीत, VALL-E वक्ता की भावनाओं और स्वर को पुन: उत्पन्न कर सकता है, यहां तक कि उन शब्दों की रिकॉर्डिंग बनाते समय भी जो मूल वक्ता ने कभी नहीं कहा। Microsoft VALL-E को “न्यूरल कोडेक लैंग्वेज मॉडल” कहता है, और यह EnCodec तकनीक पर आधारित है जिसकी मेटा ने पिछले अक्टूबर में घोषणा की थी।
अन्य टेक्स्ट-टू-स्पीच विधियों के विपरीत, जो आमतौर पर तरंगों में हेरफेर करके भाषण को संश्लेषित करते हैं, VALL-E मानव आवाज का विश्लेषण करता है। एनकोडेक की बदौलत यह प्राप्त जानकारी को इसके अलग-अलग घटकों (जिन्हें “टोकन” कहा जाता है) में विभाजित करता है और प्रशिक्षण डेटा का उपयोग उदाहरण के रूप में सुनी गई बातों से मिलान करने के लिए करता है और यदि अन्य वाक्यांशों को बोला जाता है तो वह आवाज कैसे सुनाई देगी।
Microsoft द्वारा प्रदान किए गए ध्वनि के नमूने गुणवत्ता में भिन्न होते हैं। जबकि कुछ ध्वनि स्वाभाविक हैं, अन्य स्पष्ट रूप से मशीन-जनित और ध्वनि रोबोटिक हैं। बेशक, एआई समय के साथ बेहतर हो जाता है, इसलिए उत्पन्न प्रविष्टियां भविष्य में और अधिक ठोस होने की संभावना है। साथ ही, VALL-E केवल 3-सेकंड की रिकॉर्डिंग का उपयोग एक संकेत के रूप में करता है। यदि इस तकनीक का उपयोग नमूनों के एक बड़े सेट के साथ किया जाता, तो यह निश्चित रूप से अधिक यथार्थवादी नमूने उत्पन्न कर सकता था।
नई तकनीक अभी आम जनता के लिए या परीक्षण के लिए उपलब्ध नहीं है। शायद इस तथ्य के कारण कि इसका उपयोग धोखाधड़ी के उद्देश्यों के लिए किया जा सकता है। परियोजना की वेबसाइट है कई उदाहरण एआई काम करता है जिसे कोई भी देख सकता है।