कृत्रिम बुद्धिमत्ता के क्षेत्र में, बहुभाषी भाषण मान्यता और अनुवाद वैश्विक संचार की सुविधा के लिए आवश्यक उपकरण बन गए हैं। हालांकि, विकासशील मॉडल जो वास्तविक समय में कई भाषाओं को सटीक रूप से लिखते हैं और अनुवाद करते हैं, महत्वपूर्ण चुनौतियों का प्रतिनिधित्व करते हैं। इन चुनौतियों में विभिन्न भाषाई बारीकियों का संचालन करना, उच्च सटीकता बनाए रखना, कम देरी सुनिश्चित करना और विभिन्न उपकरणों पर मॉडल को प्रभावी ढंग से तैनात करना शामिल है।
इन चुनौतियों को पार करने के लिए, NVIDI AI में दो मॉडल खुले हैं: कैनरी 1 बी फ्लैश और कैनरी 180 मीटर फ्लैश। ये मॉडल बहुभाषी भाषण मान्यता और अनुवाद के लिए डिज़ाइन किए गए हैं, जो अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश जैसी भाषाओं का समर्थन करते हैं। अनुमेय CC -BUY -4.0 लाइसेंस के तहत प्रकाशित, ये मॉडल वाणिज्यिक उपयोग के लिए उपलब्ध हैं, AI समुदाय में नवाचार को बढ़ावा देते हैं।
तकनीकी रूप से, दोनों मॉडल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। एनकोडर फास्टकोरफॉर्मर पर आधारित है, जो प्रभावी रूप से ऑडियो डीओ सुविधाओं को संसाधित करता है, जबकि ट्रांसफार्मर डिकोडर पाठ पीढ़ी को संभालता है। टास्क-विशिष्ट टोकन, सहित
प्रदर्शन मैट्रिक्स इंगित करता है कि कैनरी 1 बी फ्लैश मॉडल ओपन एएसआर लीडरबोर्ड डेटासेट पर 1000 से अधिक आरटीएफएक्स से अधिक लाभ प्राप्त करता है, जो वास्तविक समय प्रसंस्करण को सक्षम करता है। अंग्रेजी स्वचालित भाषण सत्यापन (ASR) कार्यों में, यह Librispach स्वच्छ डेटासेट पर 1.48% और Librispatch अन्य डेटासेट पर 2.87% के शब्द त्रुटि दर (WER) प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन 36.3636%, स्पेनिश 5.6969% और एम.एल.एस. परीक्षण सेट पर फ्रेंच के लिए 47.4747% प्राप्त करता है। ऑटो टोमैटिक स्पीच ट्रांसलेशन (एएसटी) फ़ंक्शन में, मॉडल जर्मन के लिए अंग्रेजी के नीले स्कोर के साथ मजबूत प्रदर्शन, जर्मन के लिए 22.27, अंग्रेजी के लिए 22.6, स्पेनिश के लिए 22.6 और फ्लोर्स टेस्ट सेट पर फ्रेंच के लिए 41.22 दिखाता है।
छोटा कैनरी 180 मीटर फ्लैश मॉडल भी 1200 आरटीएफएक्स की गति के साथ प्रभावशाली परिणाम देता है। यह Librispach स्वच्छ डेटासेट पर 1.87% और अंग्रेजी ASR के लिए Librispach के लिए अन्य डेटासेट पर 3.83% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन के लिए 4.81%, स्पेनिश के लिए 3.17% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 75.7575% रिकॉर्ड करता है। एएसटी वर्क्स में, वह जर्मन के लिए 28.18, अंग्रेजी के लिए 20.47 स्पेनिश के लिए और 36.66 फ्रेंच के लिए अंग्रेजी से फ्लोर्स टेस्ट सेट तक प्राप्त करता है।
दोनों मॉडल वर्ड-लेवल और सेगमेंट-लेवल टिमस्टैम्पिंग का समर्थन करते हैं, ऑडियो DIO और टेक्स्ट के बीच एक विशिष्ट कॉन्फ़िगरेशन की आवश्यकता एप्लिकेशन में उनकी उपयोगिता को बढ़ाती है। उनका कॉम्पैक्ट आकार उन्हें -a -device परिनियोजन को तैनात करने में सक्षम बनाता है, ऑफ़लाइन प्रक्रिया को सक्षम करता है और क्लाउड सेवाओं पर निर्भरता को कम करता है। इसके अलावा, उनकी ताकत अधिक विश्वसनीय आउटपुट सुनिश्चित करके अनुवाद कार्यों के दौरान कम भ्रम की ओर ले जाती है। लाइसेंस के तहत CC -BY -4.0 ओपन सोर्स रिलीज समुदाय द्वारा व्यावसायिक उपयोग और आगे के विकास को बढ़ावा देता है।
अंत में, nvidaaaaaaaaaaaaaaaaaaaaaaaaaaaaaiaaaaaiaaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiai उनकी उच्च सटीकता, वास्तविक समय प्रसंस्करण क्षमताओं और ऑन-डिवाइस परिनियोजन के अनुकूलता के क्षेत्र में कई मौजूदा चुनौतियों को संबोधित करता है। इन मॉडलों को सार्वजनिक रूप से उपलब्ध कराकर, NVIDI ने AI अनुसंधान को आगे बढ़ाने के लिए एक प्रतिबद्धता दिखाई है, लेकिन अधिक निगमित और कुशल संचार उपकरण बनाने के लिए डेवलपर्स और संगठनों को भी सशक्त बनाया है।
जाँच करना यह कैनरी 1 बी नमूना और डिब्बे 180 वां फ्लैश। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।

ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।