वी


उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें


ऐसी आवाज़ें पैदा करती हैं जो न केवल मानव और संवेदनशील हैं, बल्कि बल्कि भी हैं विविधता एआई में बातचीत जारी है।

दिन के अंत में, लोग उन ध्वनियों को सुनना चाहते हैं जो उनके जैसे दिखते हैं या कम से कम प्राकृतिक, न कि केवल 20 वीं -सेंटीरी अमेरिकी प्रसारण मानक।

स्टार्टअप रिम एक नई बोली जाने वाली भाषा मॉडल, ARCA के टेक्स्ट-टू-स्पिट (TTS) के साथ इस चुनौती का सामना कर रहा है, जो अलग-अलग प्रजातियों, उम्र, जनसांख्यिकी और भाषाओं की नई आवाज़ों का उत्पादन कर सकता है, जो इच्छित विशेषताओं के एक सरल पाठ विवरण के आधार पर है।

मॉडल ने इन डोमिनोज़ और विंगस्ट ओपी दर्द के चयन के लिए ग्राहक की बिक्री को 15% बढ़ाने में मदद की है।

रिम के सीईओ और सह-संस्थापक, लिली क्लिफोर्ड ने वेंचरबिट से कहा, “यह वास्तव में उच्च गुणवत्ता वाली है, जैसे जीवन की तरह, वास्तविक दिमाग वाला मॉडल डेल।” “यह एक ऐसा मॉडल है जो न केवल एक ही ध्वनि, बल्कि जनसांख्यिकीय लाइनों के साथ ध्वनियों की एक अंतहीन परिवर्तनशीलता बना सकता है।”

वी

रिम के मल्टीमॉडल और अयस्क टॉरेस्टिव टीटीएस मॉडल को वास्तविक लोगों (आवाज अभिनेताओं) के साथ प्राकृतिक बातचीत पर प्रशिक्षित किया गया था। उपयोगकर्ता केवल वांछित जनसांख्यिकीय विशेषताओं और भाषा आवाज का एक पाठ शीघ्र विवरण लिखते हैं।

उदाहरण के लिए: ‘मुझे एक 30 -वर्ष की महिला चाहिए जो कैलिफोर्निया में रहती है और सॉफ्टवेयर में है,’ या ‘मुझे ऑस्ट्रेलियाई स्ट्रालियन मैन की आवाज दे।’

“जब भी आप ऐसा करते हैं, तो आपको एक अलग आवाज मिलेगी,” क्लिफोर्ड ने कहा।

RIM के मिस्ट V2 TTS मॉडल को उच्च-मात्रा, व्यवसाय-महत्वपूर्ण अनुप्रयोग के लिए डिज़ाइन किया गया था, जिससे उद्योग अपनी पेशेवर जरूरतों के लिए अद्वितीय आवाज़ें बनाने की अनुमति देते हैं। “ग्राहक उस ध्वनि को सुनता है जो एक मानव एजेंट की आवश्यकता के बिना एक प्राकृतिक, गतिशील बातचीत की अनुमति देता है,” क्लिफोर्ड ने कहा।

इस बीच, आउट-ऑफ-द-विकल्प विकल्पों की तलाश में लोगों के लिए, इस बीच, रिम अद्वितीय विशेषताओं के साथ आठ फ्लैगशिप स्पीकर प्रदान करता है:

  • लूना (महिला, शांत लेकिन रोमांचक, जेन-जेड आशावादी)
  • सेलेस्टे (महिला, गर्म, रखी, मज़ेदार-प्यार)
  • ओरियन (पुरुष, पुराना, अफ्रीकी-अमेरिकी, खुश)
  • उरसा (पुरुष, 20 वर्ष, 2000 के ईमो संगीत का JNOW ज्ञान
  • एस्ट्रा (महिला, युवा, चौड़ी आँखें)
  • एस्तेर (महिला, पुरानी, ​​चीनी अमेरिकी, प्यार)
  • एस्टेले (महिला, मध्य, अफ्रीकी-अमेरिकी, बहुत प्यारी लगती है)
  • एंड्रोमेडा (महिला, युवा, सांस, योग वाइब्स)

मॉडल में भाषाओं के बीच स्विच करने की क्षमता है, और कानाफूसी, व्यंग्यात्मक और यहां तक ​​कि चुटकुले भी कर सकते हैं। जब एक टोकन दिया जाता है तो आर्क भाषण में हँसी में प्रवेश कर सकता है । रिम का कहना है कि यह “स्मॉल चकली से बिग कैविटी” से एक विविध, वास्तविक आउटपुट वापस कर सकता है। मॉडल भी व्याख्या कर सकता है , और ठीक से, हालांकि यह स्पष्ट रूप से ऐसा करने के लिए प्रशिक्षित नहीं था।

“यह संदर्भ से आत्मा से मेल खाती है,” रिम तकनीकी पेपर में लिखता है। “वह हंसता है, आहें भरता है, भ्रमित करता है, श्रव्य और माइक्रो -माउथ ध्वनियों को सांस लेता है। वह ‘एन’ और अन्य धुंधले स्वाभाविक रूप से कहता है। इसमें उभरते हुए व्यवहार शामिल हैं जिन्हें हम अभी भी ढूंढ रहे हैं। संक्षेप में, वह मानव कार्य करता है।”

प्राकृतिक बातचीत पर कब्जा

रिम का मॉडल ऑडियो डीओ टोकन का उत्पादन करता है जो एक कोडेक आधारित दृष्टिकोण का उपयोग करके एक भाषण में डिकोड किया जाता है, जो कहता है कि रिम “फास्ट-रियल-टाइम सिंथेसिस” प्रदान करता है। प्रक्षेपण पर, पहला ऑडियो डियो का समय 250 मिलीसेकंड था और सार्वजनिक क्लाउड विलंबता लगभग 400 मिलीसेकंड थी।

अर्चना को तीन चरणों में प्रशिक्षित किया गया था:

  • प्री-टर्निंग: रेमे ने बड़े भाषा के मॉडल डेल्स (एलएलएम) का उपयोग पाठ-ऑडियो डीओ जोड़े के एक बड़े समूह पर एक बैकबोन के रूप में किया और आर्काना को सामान्य भाषाई और ध्वनि पैटर्न सीखने में मदद करने के लिए पूर्व-निर्देशित किया गया।
  • फाइन-ट्यूनिंग एक “विस्तृत” स्वामित्व वाले डेटासेट के साथ मनाया गया।
  • स्पीकर-विशिष्ट फाइन-ट्यूनिंग: रेम ने उन वक्ताओं की पहचान की, जिन्होंने अपने डेटासेट, वार्तालाप और विश्वसनीयता में “सबसे अनुकरणीय” पाया।

रिम डेटा में सामाजिक-भाषाई संचार तकनीक (वर्ग, लिंग, स्थान) जैसे सामाजिक संदर्भ में फैक्टरिंग, आइडिओलेट (व्यक्तिगत भाषण आदतें) और पैरालिंगस्टिक शोर (भाषण के साथ संचार के गैर-मौखिक पहलू) शामिल हैं।

इस मॉडल को स्पष्ट सूक्ष्मता, भराव शब्दों (जो कि अवचेतन ‘उह’ और ‘यूएमएस’) के साथ-साथ रुकने, अभियोजन तनाव पैटर्न (इरादे, समय, कुछ शब्दांशों का तनाव) और बहु-भाषी कोड-स्विचिंग (बहु-झलकदार वक्ताओं के दौरान) पर प्रशिक्षित किया गया था।

कंपनी ने इन सभी आंकड़ों को एकत्र करने के लिए एक अनूठा दृष्टिकोण लिया है। क्लिफोर्ड ने समझाया कि, सामान्य तौर पर, मॉडल बिल्डर्स वॉयस से स्निपेट एकत्र करेंगे, अभिनेता हैं, फिर टेक्स्ट इनपुट के आधार पर, यह चरित्र की ध्वनि विशेषताओं को पुन: पेश करने के लिए एक मॉडल बनाएगा। या, वे I Debook डेटा को स्क्रैप करेंगे।

“हमारा दृष्टिकोण बहुत अलग था,” उन्होंने समझाया। “यह था, ‘हम दुनिया के सबसे बड़े स्वामित्व वाले डेटा सेट के संचार भाषण का एक सेट कैसे बना सकते हैं?”

ऐसा करने के लिए, रेम ने सैन फ्रांसिस्को के तहखाने में अपना रिकॉर्डिंग स्टूडियो बनाया और क्रेगलिस्ट से कई महीनों तक लोगों और दोस्तों और परिवार को एकत्र किया, वर्ड-एफ-मोनना, या बस। स्क्रिप्टेड वार्तालापों के बजाय, उन्होंने एक प्राकृतिक बातचीत और चिनचत दर्ज किया।

उन्होंने तब विस्तृत मेटाडेटा, एन्कोडिंग लिंग, आयु, बोली, भाषण प्रभाव और भाषा के साथ ओटी को नोट किया। इसने रायम को 98 से 100% सटीकता प्राप्त करने की अनुमति दी।

क्लिफोर्ड ने कहा कि वे लगातार इस डेटासेट को बढ़ा रहे थे।

“हम इसे एक व्यक्तिगत आवाज कैसे प्राप्त कर सकते हैं? यदि आप केवल आवाज का उपयोग कर रहे हैं तो क्या अभिनेता हैं जो आपको कभी नहीं मिलेंगे।” “हमने वास्तव में प्राकृतिक डेटा एकत्र करने के लिए सबसे कठिन काम किया था। रिम की समृद्ध गुप्त चटनी यह है कि यह एक अभिनेता नहीं है। यह वास्तविक लोग हैं।”

‘वैयक्तिकरण हार्नेस’ जो बीस्पॉक साउंड्स बनाता है

रिम ग्राहकों को उन ध्वनियों को खोजने की क्षमता देने का इरादा रखता है जो उनके आवेदन के लिए सबसे अच्छा काम करेंगे। उन्होंने उपयोगकर्ताओं को अलग -अलग ध्वनियों के साथ ए/बी का परीक्षण करने की अनुमति देने के लिए “निजीकरण हार्नेस” टूल बनाया। किसी दिए गए इंटरैक्शन के बाद, एपीआई रिम पर वापस रिपोर्ट करता है, जो एनालिटिक्स डैशबोर्ड प्रदान करता है जो सफलता मैट्रिक्स के आधार पर सबसे अच्छी प्रदर्शन वाली आवाज़ों की पहचान करता है।

बेशक, ग्राहकों के पास सफल कॉल की अलग -अलग परिभाषाएँ हैं। खाद्य सेवा में, यह फ्राइज़ या अतिरिक्त पंखों के आदेश आदेश को बढ़ा सकता है।

“हमारे लिए लक्ष्य यह है कि हम एक ऐप कैसे बना सकते हैं जो हमारे ग्राहकों को उन प्रयोगों को स्वयं चलाने के लिए आसान बनाता है?” क्लिफोर्ड ने कहा। “क्योंकि हमारे ग्राहक एक आवाज नहीं हैं, कास्टिंग निर्देशक है, हम न तो करते हैं। चुनौती यह बन जाती है कि इसे वास्तव में वैयक्तिकरण एनालिटिक्स स्तर के लिए सहज कैसे बनाया जाए।”

अन्य केपीआई ग्राहक एआई से बात करने की इच्छा के लिए अधिकतम कर रहे हैं। उन्होंने पाया है कि, जब रिम पर स्विच किया जाता है, तो Lers Lur Boat से बात करने की संभावना 4x अधिक होती है।

क्लिफोर्ड ने कहा, “पहली बार, लोग जैसे हैं, ‘नहीं, आपको मुझे स्थानांतरित करने की ज़रूरत नहीं है। मैं आपसे बात करने के लिए पूरी तरह से तैयार हूं।’ “या, जब वे स्थानांतरित हो जाते हैं, तो वे कहते हैं ‘धन्यवाद।” (20%, वास्तव में, बी ओटी टी के साथ बातचीत को समाप्त करते समय कोमल है)।

एक महीने में 100 मिलियन कॉल

इसके ग्राहक डोमिनोज़, विंगस्टॉप, रूपांतरण नाउ और येलपो के बीच रिम की गणना करते हैं। वे बड़े संपर्क केंद्रों के साथ बहुत काम करते हैं, एंटरप्राइज डेवलपर्स इंटरेक्टिव वॉयस का निर्माण करते हैं, प्रतिक्रिया (आईवीआर) सिस्टम और टेलीकॉम, क्लिफोर्ड द्वारा नोट की गई है।

“जब हम रिम की ओर मुड़े, तो हमने अपने कॉल को सफलता की संभावना में तुरंत दोहरे अंकों में सुधार देखा।” “एक रिम के साथ काम करने का मतलब है कि हम एक टन अंतिम मील की समस्याओं को हल करते हैं जो एक उच्च -इम्पैक्ट एप्लिकेशन के लिए भेजे जाते हैं।”

येलपो सीपीओ जी जुफ़ेंग ने कहा कि, उनकी कंपनी के उच्च-मात्रा वाले आउटबाउंड एप्लिकेशन के लिए, उन्हें ग्राहक के साथ तत्काल आत्मविश्वास बनाने की आवश्यकता थी। “हमने बाजार में हर मॉडल का परीक्षण किया और पाया कि रिम की आवाज़ ने ग्राहकों को उच्चतम दर में बदल दिया।”

रिम पहले से ही एक महीने में 100 मिलियन फोन कॉल की शक्ति में मदद कर रहा है, “क्लिफोर्ड ने कहा।” यदि आप डोमिनोज़ या विंगस्टॉप कॉल कहते हैं, तो 80 से 90% मौका है कि आप रिम साउंड सुनते हैं, “उन्होंने कहा।

आगे देखते हुए, रिम कम देरी का समर्थन करने के लिए फर में अधिक परिसर को आगे बढ़ाएगा। वास्तव में, वे उम्मीद करते हैं, 2025 के अंत तक, उनकी मात्रा का 90% होगा। “कारण यह है कि यदि आप इन मॉडलों को क्लाउड में चला रहे हैं, तो आप कभी भी तेज नहीं होंगे,” क्लिफोर्ड ने कहा।

इसके अलावा, रिम अन्य भाषाई चुनौतियों को पूरा करने के लिए अपने मॉडलों को अच्छी तरह से ट्यून करना जारी रखता है। उदाहरण के लिए, डोमिनोज़ जीभ-पैर की तरह “मित्ज़ा एक्स्ट्रावगांजा” की तरह, मॉडल ने कभी सामना नहीं किया। जैसा कि क्लिफोर्ड ने कहा, क्या ध्वनि व्यक्तिगत है, प्राकृतिक है और वास्तविक समय में प्रतिक्रिया करता है, यह विफल हो जाएगा यदि यह कंपनी की अनूठी जरूरतों को नियंत्रित नहीं कर सकता है।

“अभी भी कई समस्याएं हैं जो हमारे प्रतिद्वंद्वियों को अंतिम मील की समस्याओं के रूप में देखते हैं, लेकिन हमारे ग्राहक पहले मील की समस्याओं को देखते हैं,” क्लिफोर्ड ने कहा।

You might also enjoy

Subscribe Our Newsletter

Scroll to Top