नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें
Elevenlabs, AI वॉयस इस्लोनिंग और पूर्व Palentir Buns शुरू करने वाले पे जेनरेशन, स्क्रब V1 आज, एक नया स्पीच-टू-टेक्स्ट मॉडल शुरू करते हैं, जो कई भाषाओं में उच्चतम सटीकता की रिपोर्ट करता है। उपयोगकर्ता इसे यहां आज़मा सकते हैं।
कंपनी के बेंचमार्क के अनुसार, यह एक नया रिकॉर्ड -अप त्रुटि दर प्राप्त करता है, जो Google के मिथुन 2.0 फ्लैश, ओपनई के व्हिस्पर वी 3 और डीपग्राम नोवा -3 को वेब पर पाठ में सटीक रूप से परिवर्तित करता है।
कंपनी का दावा है कि लेखक 99 भाषाओं में परिष्कृत प्रतिलेखन सटीकता प्रदान करता है, जिसमें सर्बियाई, कैंटोनीज़ और मलयालम जैसी पिछली अंडरविड भाषाओं में बेहतर संचालन शामिल है।
फ्लेवियो स्नाइडर के रूप में, X पर लिखे गए Elevenlabs के प्रमुख शोधकर्ता, Scrib अभी भी एक “स्मार्ट ऑडियो Deo अंडरस्टैंडिंग मॉडल” है जो Elvenlabs द्वारा प्रकाशित किया गया है।
“SCRIBE बस ट्रांसक्राइब नहीं करता है – वह ऑडियो डियो को समझता है,” स्नाइडर ने थ्रेड में जारी रखा। “यह गैर-मौखिक घटनाओं (जैसे हँसी, ध्वनि प्रभाव, संगीत और पृष्ठभूमि ध्वनियों) का पता लगा सकता है और, यहां तक कि एक बहुत ही चुनौतीपूर्ण वातावरण में, सटीक दस्त के लिए लंबे ऑडियो डीओ संदर्भों का विश्लेषण कर सकता है।”
“डायराइजेशन” रिकॉर्डिंग पर उनकी आवाज गुणों द्वारा वक्ताओं को अलग करने की प्रक्रिया को दिया गया नाम है।
वास्तव में, ग्यारहबैब्स प्रलेखन के राज्य एक ही ऑडियो डियो फ़ाइल में 32 अलग -अलग वक्ताओं को अलग और अलग कर सकते हैं।
जबकि बुजुर्गों ने चेतावनी दी है कि लेखक का सबसे अच्छा उपयोग तब किया जाता है जब एक उच्च-सटीक प्रतिलेखन की आवश्यकता होती है जब एक वास्तविक समय के प्रतिलेखन की आवश्यकता होती है, “कंपनी ने जल्द ही एक कम-विद्युत संस्करण शुरू करने की योजना बनाई है, वास्तविक समय के आवेदन के लिए इसके उपयोग का विस्तार करते हुए।
सबसे कम शब्द त्रुटि दर (WER)
Scrubb को वास्तविक दुनिया के ऑडियो DIO चुनौतियों को सटीक रूप से संभालने के लिए डिज़ाइन किया गया है। फ्लोर्स और कॉमन वी वॉयस आईएसएस के बेंचमार्क परिणामों के अनुसार, यह इतालवी (98.7%) और अंग्रेजी (96.7%) सहित कई भाषाओं के लिए सबसे कम शब्द त्रुटि दर (WER) रिकॉर्ड करता है।
प्रमुख विशेषताओं में शामिल हैं:
- बहु-स्पाइकर रिकॉर्डिंग में वक्ताओं को अलग करने के लिए स्पीकर डायराइजेशन।
- विस्तृत प्रतिलेखन सटीकता के लिए वर्ड-लेवल टाइमस्टैम्प।
- हँसी और पृष्ठभूमि की आवाज़ जैसे गैर-अन्वेषण भाषण की खोज।
- एपीआई द्वारा सहज एकीकरण के लिए संरचित प्रतिलेख आउटपुट।
कीमतों और उपलब्धता
स्क्रब अब Elvenlabs वेबसाइट और API द्वारा उपलब्ध है।
अगले छह हफ्तों के लिए 50% छूट के साथ, मूल्य निर्धारण घंटे में 0 0.40 पर सेट है। कम-विद्युत संस्करण भी वास्तविक समय के अनुप्रयोगों के लिए विकास में है।
उद्योगों के लिए इसका क्या मतलब है
एंटरप्राइज़ निर्णय लेने के लिए, लेखक स्केलेबल, उच्च-सटीक प्रतिलेखन के लिए एक उपकरण प्रस्तुत करता है, जो स्वचालित दस्तावेजों, प्रतिलेखन और सामग्री पहुंच को पूरा करने के आधार पर उद्योगों के लिए उपयोगी बनाता है।
बहुराष्ट्रीय व्यवसाय, मीडिया कंपनियां और ग्राहक सहायता अनुप्रयोग भी उच्च परिशुद्धता के साथ विभिन्न भाषाओं को संभालने की क्षमता से लाभान्वित होते हैं।
स्क्रीन की कीमतें इसे उन व्यवसायों के लिए प्रतिस्पर्धी बनाती हैं जिन्हें उच्च-मात्रा वाले प्रतिलेखन सेवाओं की आवश्यकता होती है, और उनके एपीआई-आधारित एकीकरण से एंटरप्राइज वर्कफ़्लो में सहज गोद लेने की अनुमति मिलती है।
इसके अलावा, अगला कम-विद्युत संस्करण वास्तविक समय के संचार उपकरणों के लिए एक व्यवहार्य विकल्प के रूप में स्क्रब को स्थिति दे सकता है।
एक ही दिन के रूप में एक पाठ-से-गति मॉडल ऑक्टेव के विपरीत प्रतिद्वंद्वी हम के रूप में आओ
टाइमिंग ऑल है, और इलेवनलैब्स ने एक ही दिन में एक प्रतिद्वंद्वी हम एआई का अनावरण करने के लिए चुना है, जो एक एलएलएम-संचालित टेक्स्ट-टू-स्पीच मॉडल के रूप में है, जिससे उपयोगकर्ता समायोज्य भावनाओं के साथ एआई-जनित ध्वनियों को अनुकूलित करने की अनुमति देते हैं।
यह सामग्री निर्माण के लिए डिज़ाइन किया गया है, जिसमें I डीबुक, पॉडकास्ट और वीडियो गेम वॉयस आइसोवर शामिल हैं। मानक टीटीएस सिस्टम के विपरीत, ऑक्टेव व्यक्तिगत वाक्यों के अगले संदर्भ को ध्यान में रखता है, टोन, लय और कैडल्स अधिक स्वाभाविक हैं।
हम एआई इलेवनब के टेक्स्ट-टू-स्पीड इट्स ऑक्टेव को फुर्सिंग के प्रत्यक्ष प्रतिद्वंद्वी के रूप में स्थिति में रखते हैं, यह रोशन करता है कि ऑक्टेव की लागत लगभग आधी है, जो कि इल्वेनलैब की वर्तमान एआई आवाज की लागत है, सेवाएं हैं।
जबकि लेखक और ऑक्टेव विभिन्न कार्य करते हैं, उनका विकास AI- संचालित ऑडियो DEIO मॉडल में बढ़ती प्रतिस्पर्धा को दर्शाता है।
Elvenlabs कुछ, बहु-भाषा भाषण विश्वासों को प्राथमिकता दे रहे हैं, जबकि हम एआई एक अभिव्यंजक एआई-जनित भाषण का नेतृत्व कर रहे हैं।
एंटरप्राइज के लिए, इसका मतलब है कि ट्रांसक्रिप्शन और सिंथेटिक वॉयस ISSA अनुप्रयोगों, अधिक कुशल सामग्री उत्पादन, ग्राहक की सगाई और कामुकता उपकरणों तक पहुंच दोनों के लिए अधिक विशिष्ट समाधान।
स्क्रब अब जीवित है, और Elvenlabs अगले सप्ताह एक आभासी कार्यक्रम का आयोजन कर रहा है, इसके विकास के पीछे टीम के साथ। अधिक जानकारी, बेंचमार्क और एपीआई प्रलेखन आधिकारिक ब्लॉग पोस्ट में उपलब्ध हैं।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
