वी

June 7, 2025

Dr. Ashish V

उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें

ऐसी आवाज़ें पैदा करती हैं जो न केवल मानव और संवेदनशील हैं, बल्कि बल्कि भी हैं विविधता एआई में बातचीत जारी है।

दिन के अंत में, लोग उन ध्वनियों को सुनना चाहते हैं जो उनके जैसे दिखते हैं या कम से कम प्राकृतिक, न कि केवल 20 वीं -सेंटीरी अमेरिकी प्रसारण मानक।

स्टार्टअप रिम एक नई बोली जाने वाली भाषा मॉडल, ARCA के टेक्स्ट-टू-स्पिट (TTS) के साथ इस चुनौती का सामना कर रहा है, जो अलग-अलग प्रजातियों, उम्र, जनसांख्यिकी और भाषाओं की नई आवाज़ों का उत्पादन कर सकता है, जो इच्छित विशेषताओं के एक सरल पाठ विवरण के आधार पर है।

मॉडल ने इन डोमिनोज़ और विंगस्ट ओपी दर्द के चयन के लिए ग्राहक की बिक्री को 15% बढ़ाने में मदद की है।

रिम के सीईओ और सह-संस्थापक, लिली क्लिफोर्ड ने वेंचरबिट से कहा, “यह वास्तव में उच्च गुणवत्ता वाली है, जैसे जीवन की तरह, वास्तविक दिमाग वाला मॉडल डेल।” “यह एक ऐसा मॉडल है जो न केवल एक ही ध्वनि, बल्कि जनसांख्यिकीय लाइनों के साथ ध्वनियों की एक अंतहीन परिवर्तनशीलता बना सकता है।”

वी

रिम के मल्टीमॉडल और अयस्क टॉरेस्टिव टीटीएस मॉडल को वास्तविक लोगों (आवाज अभिनेताओं) के साथ प्राकृतिक बातचीत पर प्रशिक्षित किया गया था। उपयोगकर्ता केवल वांछित जनसांख्यिकीय विशेषताओं और भाषा आवाज का एक पाठ शीघ्र विवरण लिखते हैं।

उदाहरण के लिए: ‘मुझे एक 30 -वर्ष की महिला चाहिए जो कैलिफोर्निया में रहती है और सॉफ्टवेयर में है,’ या ‘मुझे ऑस्ट्रेलियाई स्ट्रालियन मैन की आवाज दे।’

“जब भी आप ऐसा करते हैं, तो आपको एक अलग आवाज मिलेगी,” क्लिफोर्ड ने कहा।

RIM के मिस्ट V2 TTS मॉडल को उच्च-मात्रा, व्यवसाय-महत्वपूर्ण अनुप्रयोग के लिए डिज़ाइन किया गया था, जिससे उद्योग अपनी पेशेवर जरूरतों के लिए अद्वितीय आवाज़ें बनाने की अनुमति देते हैं। “ग्राहक उस ध्वनि को सुनता है जो एक मानव एजेंट की आवश्यकता के बिना एक प्राकृतिक, गतिशील बातचीत की अनुमति देता है,” क्लिफोर्ड ने कहा।

इस बीच, आउट-ऑफ-द-विकल्प विकल्पों की तलाश में लोगों के लिए, इस बीच, रिम अद्वितीय विशेषताओं के साथ आठ फ्लैगशिप स्पीकर प्रदान करता है:

लूना (महिला, शांत लेकिन रोमांचक, जेन-जेड आशावादी)
सेलेस्टे (महिला, गर्म, रखी, मज़ेदार-प्यार)
ओरियन (पुरुष, पुराना, अफ्रीकी-अमेरिकी, खुश)
उरसा (पुरुष, 20 वर्ष, 2000 के ईमो संगीत का JNOW ज्ञान
एस्ट्रा (महिला, युवा, चौड़ी आँखें)
एस्तेर (महिला, पुरानी, चीनी अमेरिकी, प्यार)
एस्टेले (महिला, मध्य, अफ्रीकी-अमेरिकी, बहुत प्यारी लगती है)
एंड्रोमेडा (महिला, युवा, सांस, योग वाइब्स)

मॉडल में भाषाओं के बीच स्विच करने की क्षमता है, और कानाफूसी, व्यंग्यात्मक और यहां तक कि चुटकुले भी कर सकते हैं। जब एक टोकन दिया जाता है तो आर्क भाषण में हँसी में प्रवेश कर सकता है । रिम का कहना है कि यह “स्मॉल चकली से बिग कैविटी” से एक विविध, वास्तविक आउटपुट वापस कर सकता है। मॉडल भी व्याख्या कर सकता है , और ठीक से, हालांकि यह स्पष्ट रूप से ऐसा करने के लिए प्रशिक्षित नहीं था।

“यह संदर्भ से आत्मा से मेल खाती है,” रिम तकनीकी पेपर में लिखता है। “वह हंसता है, आहें भरता है, भ्रमित करता है, श्रव्य और माइक्रो -माउथ ध्वनियों को सांस लेता है। वह ‘एन’ और अन्य धुंधले स्वाभाविक रूप से कहता है। इसमें उभरते हुए व्यवहार शामिल हैं जिन्हें हम अभी भी ढूंढ रहे हैं। संक्षेप में, वह मानव कार्य करता है।”

प्राकृतिक बातचीत पर कब्जा

रिम का मॉडल ऑडियो डीओ टोकन का उत्पादन करता है जो एक कोडेक आधारित दृष्टिकोण का उपयोग करके एक भाषण में डिकोड किया जाता है, जो कहता है कि रिम “फास्ट-रियल-टाइम सिंथेसिस” प्रदान करता है। प्रक्षेपण पर, पहला ऑडियो डियो का समय 250 मिलीसेकंड था और सार्वजनिक क्लाउड विलंबता लगभग 400 मिलीसेकंड थी।

अर्चना को तीन चरणों में प्रशिक्षित किया गया था:

प्री-टर्निंग: रेमे ने बड़े भाषा के मॉडल डेल्स (एलएलएम) का उपयोग पाठ-ऑडियो डीओ जोड़े के एक बड़े समूह पर एक बैकबोन के रूप में किया और आर्काना को सामान्य भाषाई और ध्वनि पैटर्न सीखने में मदद करने के लिए पूर्व-निर्देशित किया गया।
फाइन-ट्यूनिंग एक “विस्तृत” स्वामित्व वाले डेटासेट के साथ मनाया गया।
स्पीकर-विशिष्ट फाइन-ट्यूनिंग: रेम ने उन वक्ताओं की पहचान की, जिन्होंने अपने डेटासेट, वार्तालाप और विश्वसनीयता में “सबसे अनुकरणीय” पाया।

रिम डेटा में सामाजिक-भाषाई संचार तकनीक (वर्ग, लिंग, स्थान) जैसे सामाजिक संदर्भ में फैक्टरिंग, आइडिओलेट (व्यक्तिगत भाषण आदतें) और पैरालिंगस्टिक शोर (भाषण के साथ संचार के गैर-मौखिक पहलू) शामिल हैं।

इस मॉडल को स्पष्ट सूक्ष्मता, भराव शब्दों (जो कि अवचेतन ‘उह’ और ‘यूएमएस’) के साथ-साथ रुकने, अभियोजन तनाव पैटर्न (इरादे, समय, कुछ शब्दांशों का तनाव) और बहु-भाषी कोड-स्विचिंग (बहु-झलकदार वक्ताओं के दौरान) पर प्रशिक्षित किया गया था।

कंपनी ने इन सभी आंकड़ों को एकत्र करने के लिए एक अनूठा दृष्टिकोण लिया है। क्लिफोर्ड ने समझाया कि, सामान्य तौर पर, मॉडल बिल्डर्स वॉयस से स्निपेट एकत्र करेंगे, अभिनेता हैं, फिर टेक्स्ट इनपुट के आधार पर, यह चरित्र की ध्वनि विशेषताओं को पुन: पेश करने के लिए एक मॉडल बनाएगा। या, वे I Debook डेटा को स्क्रैप करेंगे।

“हमारा दृष्टिकोण बहुत अलग था,” उन्होंने समझाया। “यह था, ‘हम दुनिया के सबसे बड़े स्वामित्व वाले डेटा सेट के संचार भाषण का एक सेट कैसे बना सकते हैं?”

ऐसा करने के लिए, रेम ने सैन फ्रांसिस्को के तहखाने में अपना रिकॉर्डिंग स्टूडियो बनाया और क्रेगलिस्ट से कई महीनों तक लोगों और दोस्तों और परिवार को एकत्र किया, वर्ड-एफ-मोनना, या बस। स्क्रिप्टेड वार्तालापों के बजाय, उन्होंने एक प्राकृतिक बातचीत और चिनचत दर्ज किया।

उन्होंने तब विस्तृत मेटाडेटा, एन्कोडिंग लिंग, आयु, बोली, भाषण प्रभाव और भाषा के साथ ओटी को नोट किया। इसने रायम को 98 से 100% सटीकता प्राप्त करने की अनुमति दी।

क्लिफोर्ड ने कहा कि वे लगातार इस डेटासेट को बढ़ा रहे थे।

“हम इसे एक व्यक्तिगत आवाज कैसे प्राप्त कर सकते हैं? यदि आप केवल आवाज का उपयोग कर रहे हैं तो क्या अभिनेता हैं जो आपको कभी नहीं मिलेंगे।” “हमने वास्तव में प्राकृतिक डेटा एकत्र करने के लिए सबसे कठिन काम किया था। रिम की समृद्ध गुप्त चटनी यह है कि यह एक अभिनेता नहीं है। यह वास्तविक लोग हैं।”

‘वैयक्तिकरण हार्नेस’ जो बीस्पॉक साउंड्स बनाता है

रिम ग्राहकों को उन ध्वनियों को खोजने की क्षमता देने का इरादा रखता है जो उनके आवेदन के लिए सबसे अच्छा काम करेंगे। उन्होंने उपयोगकर्ताओं को अलग -अलग ध्वनियों के साथ ए/बी का परीक्षण करने की अनुमति देने के लिए “निजीकरण हार्नेस” टूल बनाया। किसी दिए गए इंटरैक्शन के बाद, एपीआई रिम पर वापस रिपोर्ट करता है, जो एनालिटिक्स डैशबोर्ड प्रदान करता है जो सफलता मैट्रिक्स के आधार पर सबसे अच्छी प्रदर्शन वाली आवाज़ों की पहचान करता है।

बेशक, ग्राहकों के पास सफल कॉल की अलग -अलग परिभाषाएँ हैं। खाद्य सेवा में, यह फ्राइज़ या अतिरिक्त पंखों के आदेश आदेश को बढ़ा सकता है।

“हमारे लिए लक्ष्य यह है कि हम एक ऐप कैसे बना सकते हैं जो हमारे ग्राहकों को उन प्रयोगों को स्वयं चलाने के लिए आसान बनाता है?” क्लिफोर्ड ने कहा। “क्योंकि हमारे ग्राहक एक आवाज नहीं हैं, कास्टिंग निर्देशक है, हम न तो करते हैं। चुनौती यह बन जाती है कि इसे वास्तव में वैयक्तिकरण एनालिटिक्स स्तर के लिए सहज कैसे बनाया जाए।”

अन्य केपीआई ग्राहक एआई से बात करने की इच्छा के लिए अधिकतम कर रहे हैं। उन्होंने पाया है कि, जब रिम पर स्विच किया जाता है, तो Lers Lur Boat से बात करने की संभावना 4x अधिक होती है।

क्लिफोर्ड ने कहा, “पहली बार, लोग जैसे हैं, ‘नहीं, आपको मुझे स्थानांतरित करने की ज़रूरत नहीं है। मैं आपसे बात करने के लिए पूरी तरह से तैयार हूं।’ “या, जब वे स्थानांतरित हो जाते हैं, तो वे कहते हैं ‘धन्यवाद।” (20%, वास्तव में, बी ओटी टी के साथ बातचीत को समाप्त करते समय कोमल है)।

एक महीने में 100 मिलियन कॉल

इसके ग्राहक डोमिनोज़, विंगस्टॉप, रूपांतरण नाउ और येलपो के बीच रिम की गणना करते हैं। वे बड़े संपर्क केंद्रों के साथ बहुत काम करते हैं, एंटरप्राइज डेवलपर्स इंटरेक्टिव वॉयस का निर्माण करते हैं, प्रतिक्रिया (आईवीआर) सिस्टम और टेलीकॉम, क्लिफोर्ड द्वारा नोट की गई है।

“जब हम रिम की ओर मुड़े, तो हमने अपने कॉल को सफलता की संभावना में तुरंत दोहरे अंकों में सुधार देखा।” “एक रिम के साथ काम करने का मतलब है कि हम एक टन अंतिम मील की समस्याओं को हल करते हैं जो एक उच्च -इम्पैक्ट एप्लिकेशन के लिए भेजे जाते हैं।”

येलपो सीपीओ जी जुफ़ेंग ने कहा कि, उनकी कंपनी के उच्च-मात्रा वाले आउटबाउंड एप्लिकेशन के लिए, उन्हें ग्राहक के साथ तत्काल आत्मविश्वास बनाने की आवश्यकता थी। “हमने बाजार में हर मॉडल का परीक्षण किया और पाया कि रिम की आवाज़ ने ग्राहकों को उच्चतम दर में बदल दिया।”

रिम पहले से ही एक महीने में 100 मिलियन फोन कॉल की शक्ति में मदद कर रहा है, “क्लिफोर्ड ने कहा।” यदि आप डोमिनोज़ या विंगस्टॉप कॉल कहते हैं, तो 80 से 90% मौका है कि आप रिम साउंड सुनते हैं, “उन्होंने कहा।

आगे देखते हुए, रिम कम देरी का समर्थन करने के लिए फर में अधिक परिसर को आगे बढ़ाएगा। वास्तव में, वे उम्मीद करते हैं, 2025 के अंत तक, उनकी मात्रा का 90% होगा। “कारण यह है कि यदि आप इन मॉडलों को क्लाउड में चला रहे हैं, तो आप कभी भी तेज नहीं होंगे,” क्लिफोर्ड ने कहा।

इसके अलावा, रिम अन्य भाषाई चुनौतियों को पूरा करने के लिए अपने मॉडलों को अच्छी तरह से ट्यून करना जारी रखता है। उदाहरण के लिए, डोमिनोज़ जीभ-पैर की तरह “मित्ज़ा एक्स्ट्रावगांजा” की तरह, मॉडल ने कभी सामना नहीं किया। जैसा कि क्लिफोर्ड ने कहा, क्या ध्वनि व्यक्तिगत है, प्राकृतिक है और वास्तविक समय में प्रतिक्रिया करता है, यह विफल हो जाएगा यदि यह कंपनी की अनूठी जरूरतों को नियंत्रित नहीं कर सकता है।

“अभी भी कई समस्याएं हैं जो हमारे प्रतिद्वंद्वियों को अंतिम मील की समस्याओं के रूप में देखते हैं, लेकिन हमारे ग्राहक पहले मील की समस्याओं को देखते हैं,” क्लिफोर्ड ने कहा।

वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि

यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।

हमारी गोपनीयता नीति पढ़ें

सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।

एक त्रुटि पाई गई।

वी

Dr. Ashish V

वी

प्राकृतिक बातचीत पर कब्जा

‘वैयक्तिकरण हार्नेस’ जो बीस्पॉक साउंड्स बनाता है

एक महीने में 100 मिलियन कॉल

You might also enjoy

Red Teaming AI для более безопасных моделей

＃283-克里斯·梅森（Chris Mason）：太空旅行，殖民化和太空長期生存

盗窃个人

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace