उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें
ऐसी आवाज़ें पैदा करती हैं जो न केवल मानव और संवेदनशील हैं, बल्कि बल्कि भी हैं विविधता एआई में बातचीत जारी है।
दिन के अंत में, लोग उन ध्वनियों को सुनना चाहते हैं जो उनके जैसे दिखते हैं या कम से कम प्राकृतिक, न कि केवल 20 वीं -सेंटीरी अमेरिकी प्रसारण मानक।
स्टार्टअप रिम एक नई बोली जाने वाली भाषा मॉडल, ARCA के टेक्स्ट-टू-स्पिट (TTS) के साथ इस चुनौती का सामना कर रहा है, जो अलग-अलग प्रजातियों, उम्र, जनसांख्यिकी और भाषाओं की नई आवाज़ों का उत्पादन कर सकता है, जो इच्छित विशेषताओं के एक सरल पाठ विवरण के आधार पर है।
मॉडल ने इन डोमिनोज़ और विंगस्ट ओपी दर्द के चयन के लिए ग्राहक की बिक्री को 15% बढ़ाने में मदद की है।
रिम के सीईओ और सह-संस्थापक, लिली क्लिफोर्ड ने वेंचरबिट से कहा, “यह वास्तव में उच्च गुणवत्ता वाली है, जैसे जीवन की तरह, वास्तविक दिमाग वाला मॉडल डेल।” “यह एक ऐसा मॉडल है जो न केवल एक ही ध्वनि, बल्कि जनसांख्यिकीय लाइनों के साथ ध्वनियों की एक अंतहीन परिवर्तनशीलता बना सकता है।”
वी
रिम के मल्टीमॉडल और अयस्क टॉरेस्टिव टीटीएस मॉडल को वास्तविक लोगों (आवाज अभिनेताओं) के साथ प्राकृतिक बातचीत पर प्रशिक्षित किया गया था। उपयोगकर्ता केवल वांछित जनसांख्यिकीय विशेषताओं और भाषा आवाज का एक पाठ शीघ्र विवरण लिखते हैं।
उदाहरण के लिए: ‘मुझे एक 30 -वर्ष की महिला चाहिए जो कैलिफोर्निया में रहती है और सॉफ्टवेयर में है,’ या ‘मुझे ऑस्ट्रेलियाई स्ट्रालियन मैन की आवाज दे।’

“जब भी आप ऐसा करते हैं, तो आपको एक अलग आवाज मिलेगी,” क्लिफोर्ड ने कहा।
RIM के मिस्ट V2 TTS मॉडल को उच्च-मात्रा, व्यवसाय-महत्वपूर्ण अनुप्रयोग के लिए डिज़ाइन किया गया था, जिससे उद्योग अपनी पेशेवर जरूरतों के लिए अद्वितीय आवाज़ें बनाने की अनुमति देते हैं। “ग्राहक उस ध्वनि को सुनता है जो एक मानव एजेंट की आवश्यकता के बिना एक प्राकृतिक, गतिशील बातचीत की अनुमति देता है,” क्लिफोर्ड ने कहा।
इस बीच, आउट-ऑफ-द-विकल्प विकल्पों की तलाश में लोगों के लिए, इस बीच, रिम अद्वितीय विशेषताओं के साथ आठ फ्लैगशिप स्पीकर प्रदान करता है:
- लूना (महिला, शांत लेकिन रोमांचक, जेन-जेड आशावादी)
- सेलेस्टे (महिला, गर्म, रखी, मज़ेदार-प्यार)
- ओरियन (पुरुष, पुराना, अफ्रीकी-अमेरिकी, खुश)
- उरसा (पुरुष, 20 वर्ष, 2000 के ईमो संगीत का JNOW ज्ञान
- एस्ट्रा (महिला, युवा, चौड़ी आँखें)
- एस्तेर (महिला, पुरानी, चीनी अमेरिकी, प्यार)
- एस्टेले (महिला, मध्य, अफ्रीकी-अमेरिकी, बहुत प्यारी लगती है)
- एंड्रोमेडा (महिला, युवा, सांस, योग वाइब्स)
मॉडल में भाषाओं के बीच स्विच करने की क्षमता है, और कानाफूसी, व्यंग्यात्मक और यहां तक कि चुटकुले भी कर सकते हैं। जब एक टोकन दिया जाता है तो आर्क भाषण में हँसी में प्रवेश कर सकता है
“यह संदर्भ से आत्मा से मेल खाती है,” रिम तकनीकी पेपर में लिखता है। “वह हंसता है, आहें भरता है, भ्रमित करता है, श्रव्य और माइक्रो -माउथ ध्वनियों को सांस लेता है। वह ‘एन’ और अन्य धुंधले स्वाभाविक रूप से कहता है। इसमें उभरते हुए व्यवहार शामिल हैं जिन्हें हम अभी भी ढूंढ रहे हैं। संक्षेप में, वह मानव कार्य करता है।”
प्राकृतिक बातचीत पर कब्जा
रिम का मॉडल ऑडियो डीओ टोकन का उत्पादन करता है जो एक कोडेक आधारित दृष्टिकोण का उपयोग करके एक भाषण में डिकोड किया जाता है, जो कहता है कि रिम “फास्ट-रियल-टाइम सिंथेसिस” प्रदान करता है। प्रक्षेपण पर, पहला ऑडियो डियो का समय 250 मिलीसेकंड था और सार्वजनिक क्लाउड विलंबता लगभग 400 मिलीसेकंड थी।
अर्चना को तीन चरणों में प्रशिक्षित किया गया था:
- प्री-टर्निंग: रेमे ने बड़े भाषा के मॉडल डेल्स (एलएलएम) का उपयोग पाठ-ऑडियो डीओ जोड़े के एक बड़े समूह पर एक बैकबोन के रूप में किया और आर्काना को सामान्य भाषाई और ध्वनि पैटर्न सीखने में मदद करने के लिए पूर्व-निर्देशित किया गया।
- फाइन-ट्यूनिंग एक “विस्तृत” स्वामित्व वाले डेटासेट के साथ मनाया गया।
- स्पीकर-विशिष्ट फाइन-ट्यूनिंग: रेम ने उन वक्ताओं की पहचान की, जिन्होंने अपने डेटासेट, वार्तालाप और विश्वसनीयता में “सबसे अनुकरणीय” पाया।
रिम डेटा में सामाजिक-भाषाई संचार तकनीक (वर्ग, लिंग, स्थान) जैसे सामाजिक संदर्भ में फैक्टरिंग, आइडिओलेट (व्यक्तिगत भाषण आदतें) और पैरालिंगस्टिक शोर (भाषण के साथ संचार के गैर-मौखिक पहलू) शामिल हैं।
इस मॉडल को स्पष्ट सूक्ष्मता, भराव शब्दों (जो कि अवचेतन ‘उह’ और ‘यूएमएस’) के साथ-साथ रुकने, अभियोजन तनाव पैटर्न (इरादे, समय, कुछ शब्दांशों का तनाव) और बहु-भाषी कोड-स्विचिंग (बहु-झलकदार वक्ताओं के दौरान) पर प्रशिक्षित किया गया था।
कंपनी ने इन सभी आंकड़ों को एकत्र करने के लिए एक अनूठा दृष्टिकोण लिया है। क्लिफोर्ड ने समझाया कि, सामान्य तौर पर, मॉडल बिल्डर्स वॉयस से स्निपेट एकत्र करेंगे, अभिनेता हैं, फिर टेक्स्ट इनपुट के आधार पर, यह चरित्र की ध्वनि विशेषताओं को पुन: पेश करने के लिए एक मॉडल बनाएगा। या, वे I Debook डेटा को स्क्रैप करेंगे।
“हमारा दृष्टिकोण बहुत अलग था,” उन्होंने समझाया। “यह था, ‘हम दुनिया के सबसे बड़े स्वामित्व वाले डेटा सेट के संचार भाषण का एक सेट कैसे बना सकते हैं?”
ऐसा करने के लिए, रेम ने सैन फ्रांसिस्को के तहखाने में अपना रिकॉर्डिंग स्टूडियो बनाया और क्रेगलिस्ट से कई महीनों तक लोगों और दोस्तों और परिवार को एकत्र किया, वर्ड-एफ-मोनना, या बस। स्क्रिप्टेड वार्तालापों के बजाय, उन्होंने एक प्राकृतिक बातचीत और चिनचत दर्ज किया।
उन्होंने तब विस्तृत मेटाडेटा, एन्कोडिंग लिंग, आयु, बोली, भाषण प्रभाव और भाषा के साथ ओटी को नोट किया। इसने रायम को 98 से 100% सटीकता प्राप्त करने की अनुमति दी।
क्लिफोर्ड ने कहा कि वे लगातार इस डेटासेट को बढ़ा रहे थे।
“हम इसे एक व्यक्तिगत आवाज कैसे प्राप्त कर सकते हैं? यदि आप केवल आवाज का उपयोग कर रहे हैं तो क्या अभिनेता हैं जो आपको कभी नहीं मिलेंगे।” “हमने वास्तव में प्राकृतिक डेटा एकत्र करने के लिए सबसे कठिन काम किया था। रिम की समृद्ध गुप्त चटनी यह है कि यह एक अभिनेता नहीं है। यह वास्तविक लोग हैं।”
‘वैयक्तिकरण हार्नेस’ जो बीस्पॉक साउंड्स बनाता है
रिम ग्राहकों को उन ध्वनियों को खोजने की क्षमता देने का इरादा रखता है जो उनके आवेदन के लिए सबसे अच्छा काम करेंगे। उन्होंने उपयोगकर्ताओं को अलग -अलग ध्वनियों के साथ ए/बी का परीक्षण करने की अनुमति देने के लिए “निजीकरण हार्नेस” टूल बनाया। किसी दिए गए इंटरैक्शन के बाद, एपीआई रिम पर वापस रिपोर्ट करता है, जो एनालिटिक्स डैशबोर्ड प्रदान करता है जो सफलता मैट्रिक्स के आधार पर सबसे अच्छी प्रदर्शन वाली आवाज़ों की पहचान करता है।
बेशक, ग्राहकों के पास सफल कॉल की अलग -अलग परिभाषाएँ हैं। खाद्य सेवा में, यह फ्राइज़ या अतिरिक्त पंखों के आदेश आदेश को बढ़ा सकता है।
“हमारे लिए लक्ष्य यह है कि हम एक ऐप कैसे बना सकते हैं जो हमारे ग्राहकों को उन प्रयोगों को स्वयं चलाने के लिए आसान बनाता है?” क्लिफोर्ड ने कहा। “क्योंकि हमारे ग्राहक एक आवाज नहीं हैं, कास्टिंग निर्देशक है, हम न तो करते हैं। चुनौती यह बन जाती है कि इसे वास्तव में वैयक्तिकरण एनालिटिक्स स्तर के लिए सहज कैसे बनाया जाए।”
अन्य केपीआई ग्राहक एआई से बात करने की इच्छा के लिए अधिकतम कर रहे हैं। उन्होंने पाया है कि, जब रिम पर स्विच किया जाता है, तो Lers Lur Boat से बात करने की संभावना 4x अधिक होती है।
क्लिफोर्ड ने कहा, “पहली बार, लोग जैसे हैं, ‘नहीं, आपको मुझे स्थानांतरित करने की ज़रूरत नहीं है। मैं आपसे बात करने के लिए पूरी तरह से तैयार हूं।’ “या, जब वे स्थानांतरित हो जाते हैं, तो वे कहते हैं ‘धन्यवाद।” (20%, वास्तव में, बी ओटी टी के साथ बातचीत को समाप्त करते समय कोमल है)।
एक महीने में 100 मिलियन कॉल
इसके ग्राहक डोमिनोज़, विंगस्टॉप, रूपांतरण नाउ और येलपो के बीच रिम की गणना करते हैं। वे बड़े संपर्क केंद्रों के साथ बहुत काम करते हैं, एंटरप्राइज डेवलपर्स इंटरेक्टिव वॉयस का निर्माण करते हैं, प्रतिक्रिया (आईवीआर) सिस्टम और टेलीकॉम, क्लिफोर्ड द्वारा नोट की गई है।
“जब हम रिम की ओर मुड़े, तो हमने अपने कॉल को सफलता की संभावना में तुरंत दोहरे अंकों में सुधार देखा।” “एक रिम के साथ काम करने का मतलब है कि हम एक टन अंतिम मील की समस्याओं को हल करते हैं जो एक उच्च -इम्पैक्ट एप्लिकेशन के लिए भेजे जाते हैं।”
येलपो सीपीओ जी जुफ़ेंग ने कहा कि, उनकी कंपनी के उच्च-मात्रा वाले आउटबाउंड एप्लिकेशन के लिए, उन्हें ग्राहक के साथ तत्काल आत्मविश्वास बनाने की आवश्यकता थी। “हमने बाजार में हर मॉडल का परीक्षण किया और पाया कि रिम की आवाज़ ने ग्राहकों को उच्चतम दर में बदल दिया।”
रिम पहले से ही एक महीने में 100 मिलियन फोन कॉल की शक्ति में मदद कर रहा है, “क्लिफोर्ड ने कहा।” यदि आप डोमिनोज़ या विंगस्टॉप कॉल कहते हैं, तो 80 से 90% मौका है कि आप रिम साउंड सुनते हैं, “उन्होंने कहा।
आगे देखते हुए, रिम कम देरी का समर्थन करने के लिए फर में अधिक परिसर को आगे बढ़ाएगा। वास्तव में, वे उम्मीद करते हैं, 2025 के अंत तक, उनकी मात्रा का 90% होगा। “कारण यह है कि यदि आप इन मॉडलों को क्लाउड में चला रहे हैं, तो आप कभी भी तेज नहीं होंगे,” क्लिफोर्ड ने कहा।
इसके अलावा, रिम अन्य भाषाई चुनौतियों को पूरा करने के लिए अपने मॉडलों को अच्छी तरह से ट्यून करना जारी रखता है। उदाहरण के लिए, डोमिनोज़ जीभ-पैर की तरह “मित्ज़ा एक्स्ट्रावगांजा” की तरह, मॉडल ने कभी सामना नहीं किया। जैसा कि क्लिफोर्ड ने कहा, क्या ध्वनि व्यक्तिगत है, प्राकृतिक है और वास्तविक समय में प्रतिक्रिया करता है, यह विफल हो जाएगा यदि यह कंपनी की अनूठी जरूरतों को नियंत्रित नहीं कर सकता है।
“अभी भी कई समस्याएं हैं जो हमारे प्रतिद्वंद्वियों को अंतिम मील की समस्याओं के रूप में देखते हैं, लेकिन हमारे ग्राहक पहले मील की समस्याओं को देखते हैं,” क्लिफोर्ड ने कहा।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
