ऑडियो डियो पीढ़ी की सीमा को आगे बढ़ाता है

तकनीकी

प्रबुद्ध
लेखक

ज़ालन बोरसे, मैट शरीफाई और मार्को टैगालियासाची

हमारी प्रमुख भाषण पीढ़ी प्रौद्योगिकियां दुनिया भर के लोगों को अधिक प्राकृतिक, संचार और सहज डिजिटल सहायक और एआई उपकरणों की मदद कर रही हैं।

भाषण मानव कनेक्शन का केंद्र है। यह दुनिया भर के लोगों को जानकारी और विचारों का आदान -प्रदान करने, भावनाओं को व्यक्त करने और आपसी समझ बनाने में मदद करता है। जैसा कि हमारी तकनीक प्राकृतिक, गतिशील ध्वनियों का उत्पादन करने के लिए सुधार करती है, हम अनलवेड, अधिक आकर्षक डिजिटल अनुभव कर रहे हैं।

पिछले कुछ वर्षों में, हमने ऑडियो डियो पीढ़ी की सीमाओं को अग्रेषित किया है, विकसित करने वाले मॉडल जो विभिन्न इनपुट जैसे पाठ, टेम्पो नियंत्रण और विशेष ध्वनियों से उच्च गुणवत्ता, प्राकृतिक भाषण बना सकते हैं। यह तकनीक कई Google उत्पादों में एकल-स्पीकर ऑडियो DEO को सशक्त बनाती है और दुनिया भर के लोगों को अधिक प्राकृतिक, संचार और सहज ज्ञान युक्त डिजिटल सहायकों और AI उपकरणों से संपर्क करने के लिए, ऑडो डबिंग, प्रोजेक्ट एस्ट्रा, जर्नी वॉयस और यूट्यूब शामिल हैं।

Google के भागीदारों के साथ मिलकर काम करके, हमने हाल ही में दो नई सुविधाओं को विकसित करने में मदद की, जो जटिल सामग्री को और अधिक सुलभ बनाने के लिए लंबे समय-रूप, बहु-स्पीकर संवाद का कारण बन सकती हैं:

  • नोटबुक LM ऑडियो डियो एक आकर्षक और जीवित संवाद में -अपलोड किए गए दस्तावेजों को बदल देता है। एक क्लिक के साथ, दो एआई होस्ट उपयोगकर्ता सामग्री को संक्षेप में प्रस्तुत करते हैं, विषयों के बीच संबंध बनाते हैं और आगे और पीछे मुड़े हुए हैं।
  • प्रकाशित जुनेवलेज को अधिक सुलभ और सुपाच्य बनाने के लिए शोध पत्रों के बारे में औपचारिक पचरिक एआई-जनित चर्चा।

यहां, हम इन सभी उत्पादों और प्रयोगात्मक उपकरणों को ध्यान में रखते हुए, अपने नवीनतम भाषण पीढ़ी अनुसंधान का अवलोकन प्रदान करते हैं।

ऑडियो डीओ पीढ़ी के लिए अग्रणी तकनीक

इन वर्षों में, हम ऑडियो डियो जनरेशन रिसर्च में निवेश कर रहे हैं और अपने उत्पादों और प्रयोगात्मक उपकरणों में अधिक प्राकृतिक संवाद बनाने के लिए नए तरीकों की तलाश कर रहे हैं। साउंडस्टॉर्म पर हमारे पिछले शोध में, हमने पहले कई वक्ताओं के बीच प्राकृतिक संवाद के 30-सेकंड खंड बनाने की क्षमता दिखाई।

इसने हमारे पिछले काम, साउंडस्ट्रीम और IL Deolum का विस्तार किया, जिसने हमें ऑडियो DIO पीढ़ी की समस्या में कई पाठ-आधारित भाषा मॉडलिंग तकनीकों को लागू करने की अनुमति दी।

Soundsstream एक तंत्रिका ऑडियो Deio कोडेक है जो इसकी गुणवत्ता से समझौता किए बिना ऑडियो DIO इनपुट को प्रभावी ढंग से संपीड़ित और क्षय करता है। प्रशिक्षण प्रक्रिया के हिस्से के रूप में, ऑडियो डियो सीखता है कि कैसे साउंडस्ट्रीम ध्वनिक टोकन की श्रृंखला में ऑडियो डियो का एक नक्शा। इन टोकन को उच्च वफादारी के साथ ऑडियो डीओ के पुनर्निर्माण के लिए आवश्यक सभी जानकारी प्राप्त होती है, जिसमें प्रोसोडी और टिम्ब्रे जैसे गुण शामिल हैं।

AUD DIOM ऑडियो एक भाषा मॉडलिंग फ़ंक्शन के रूप में व्यवहार करता है, जैसे कि Codex के ध्वनिक टोकन जैसे कि Soundstream। नतीजतन, IL DEOM फ्रेमवर्क ऑडियो डियो के प्रकार या मेकअप को नहीं मानता है, और आसानी से विभिन्न ध्वनियों को वास्तुशिल्प समायोजन की आवश्यकता के बिना संभाल सकता है, यह मॉडलिंग मल्टी-स्पीकर के लिए एक अच्छा उम्मीदवार है।

आलू से संबंधित कुछ दस्तावेजों के आधार पर, नोटबुक एलएम ऑडियो डियो अवलोकन द्वारा उत्पन्न एक बहु-स्पाइकर संवाद का एक उदाहरण।

इस शोध के मद्देनजर, हमारा नवीनतम भाषण 2 मिनट के संवाद का उत्पादन कर सकता है, बेहतर प्रकृतिवाद, वक्ता स्थिरता और ध्वनि की गुणवत्ता के साथ, जब पीढ़ी प्रौद्योगिकी, संवाद और स्पीकर टर्न मार्करों की एक स्क्रिप्ट। मॉडल इस कार्य को 3 सेकंड में एक एकल टेंसर प्रोसेसिंग यूनिट (TPU) V5E चिप में भी करता है, यहां तक ​​कि एक अनुमान पास में भी। इसका मतलब है कि यह वास्तविक समय की तुलना में 40 गुना तेजी से ऑडियो डियो का उत्पादन करता है।

हमारे ऑडियो डियो जनरेशन मॉडल स्केलिंग

मल्टी-स्पीकर मॉडल हमारे एकल-स्पीकर जनरेशन मॉडल को स्केल करने के बाद डेटा और मॉडल क्षमता का मामला बन गया। हमारे नवीनतम भाषण भुगतान जनरेशन मॉडल डेल को लंबे भाषण खंड बनाने में मदद करने के लिए, हमने अपने आउटपुट की गुणवत्ता से समझौता किए बिना, टोकन के क्रम में ऑडियो डीओ को संपीड़ित करने के लिए एक अधिक कुशल भाषण कोडेक बनाया है।

हमारे कोडेक द्वारा उत्पादित टोकन में एक पदानुक्रम संरचना होती है और समय सीमा द्वारा समूहीकृत होते हैं। समूह के अंदर पहला टोकन ध्वन्यात्मक और प्रसंस्करण जानकारी को कैप्चर करता है, जबकि अंतिम टोकन ठीक ध्वनिक विवरण को एनकोड करते हैं।

यहां तक ​​कि हमारे नए भाषण कोडेक के साथ, 2 मिनट के संवाद का उत्पादन करने के लिए 5000 से अधिक टोकन का उत्पादन करने की आवश्यकता है। इस लंबे अनुक्रमों को बनाने के लिए, हमने एक विशेष ट्रांसफार्मर आर्किटेक्चर विकसित किया है जो हमारे ध्वनिक टोकन के डिजाइन से मेल खाते हुए, सूचना के पदानुक्रम को प्रभावी ढंग से संभाल सकता है।

इस तकनीक के साथ, हम प्रभावी रूप से एकमात्र अयस्क टोरेंटिव अनुमान पास के भीतर संवाद के अनुरूप ध्वनिक टोकन का उत्पादन कर सकते हैं। एक बार उत्पादित होने के बाद, इन टोकन को हमारे भाषण कोडेक का उपयोग करके ऑडियो डीओ वेवफॉर्म में वापस डिकोड किया जा सकता है।

एनीमेशन से पता चलता है कि हमारे स्पीच जेनरेशन मॉडल ऑडियो डे टोकन प्रवाह कैसे होते हैं, जो दो-स्पीकर संवाद से बने तरंग में वापस डिकोड किया जाता है।

हमारे मॉडल को कई वक्ताओं के बीच एक वास्तविक आदान -प्रदान सिखाने के लिए, हमने इसे हजारों घंटे के भाषण डेटा में पेश किया। फिर हमने इसे उच्च ध्वनिक गुणवत्ता और विशिष्ट स्पीकर ओटी नोटेशन के साथ संवाद के कई छोटे डेटासेट पर निकाल दिया, जिसमें कई आवाज -ई -आर्टिस्ट और वास्तविक अस्पष्टता -“उम्म” और “एएएच” शामिल हैं। इस कदम ने मॉडल को एक उत्पादक संवाद के दौरान वक्ताओं के बीच मज़बूती से स्विच करने के लिए सिखाया और वास्तविक ब्रेक, टोन और समय के साथ केवल स्टूडियो क्वालिटी ऑडियो डीओ आउटपुट।

हमारे एआई सिद्धांतों और जिम्मेदारी से एआई तकनीकों के विकास और तैनाती के लिए हमारी प्रतिबद्धता के अनुरूप, हम जी के संभावित दुर्व्यवहार के खिलाफ सुरक्षा के साथ मदद करने के लिए इस टेक्नोलॉजी के तकनीकी में शामिल हैं, गैर-ट्रांसिएंट एआई-जनित ऑडियो डीओ सामग्री को वाटरमार्क करना इन मॉडलों से।

नए भाषण का अनुभव करें

अब हम अपने मॉडल डेल के प्रवाह पर ध्यान केंद्रित कर रहे हैं, ध्वनि की गुणवत्ता में सुधार कर रहे हैं और प्रोसोडी जैसी सुविधाओं में अधिक फाइन-वैंड नियंत्रण जोड़ रहे हैं, जबकि वीडियो जैसे अन्य तरीकों के साथ इन प्रगति को कैसे संयोजित करें।

उन्नत भाषण पीढ़ी के लिए संभावित अनुप्रयोग विशाल हैं, खासकर जब हमारे मॉडल के मिथुन परिवार से जुड़े हैं। सामग्री को और अधिक सार्वभौमिक रूप से सुलभ बनाने के लिए सीखने के अनुभवों को बढ़ाने से, हम आवाज आईएस-आधारित प्रौद्योगिकियों के साथ सीमाओं को स्थानांतरित करने के लिए जारी रखने के लिए उत्साहित हैं।

पावती

इस काम के लेखक: ज़ालन बोर्सोज़, मैट शरीफ, ब्रायन एम कविलियम्स, यूनपेंग ली, डेमियन विंसेंट, फ़े लिक्स डे चामोंट क्विट्री, मार्टिन सुंदर्मियर, यूजीन खारिटोनोव, एलेक्स ट्यूडर, विक्टर एंगुरेनू, मूनस, मोहनस, मोहनस, टैगलिस,, टैग।

हम डायलॉग डेटा पर उनके महत्वपूर्ण प्रयासों के लिए लीलैंड रचिस, राल्फ लिथ, पॉल मिडलटन, पॉली पटा, मिन्ह ट्रॉन्ग और आरजे स्कारि-रयान को धन्यवाद देते हैं।

हम इन मॉडलों को उत्पादों में लाने के लिए अपने उत्कृष्ट कार्य के लिए प्रयोगशालाओं, रोशनी, क्लाउड, भाषण और YouTube के प्रति अपने सहयोगियों के लिए बहुत आभारी हैं।

हम इस परियोजना के मार्गदर्शन के लिए फ्रेंकोइस बुफेज, कृष्णा भारत, टॉम ह्यूम, साइमन टोकुमाइन, जेम्स झाओ को भी धन्यवाद देते हैं।

Scroll to Top