NVIDIA AI ओपन केवल खट्टा कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल

कृत्रिम बुद्धिमत्ता के क्षेत्र में, बहुभाषी भाषण मान्यता और अनुवाद वैश्विक संचार की सुविधा के लिए आवश्यक उपकरण बन गए हैं। हालांकि, विकासशील मॉडल जो वास्तविक समय में कई भाषाओं को सटीक रूप से लिखते हैं और अनुवाद करते हैं, महत्वपूर्ण चुनौतियों का प्रतिनिधित्व करते हैं। इन चुनौतियों में विभिन्न भाषाई बारीकियों का संचालन करना, उच्च सटीकता बनाए रखना, कम देरी सुनिश्चित करना और विभिन्न उपकरणों पर मॉडल को प्रभावी ढंग से तैनात करना शामिल है।

इन चुनौतियों को पार करने के लिए, NVIDI AI में दो मॉडल खुले हैं: कैनरी 1 बी फ्लैश और कैनरी 180 मीटर फ्लैश। ये मॉडल बहुभाषी भाषण मान्यता और अनुवाद के लिए डिज़ाइन किए गए हैं, जो अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश जैसी भाषाओं का समर्थन करते हैं। अनुमेय CC -BUY -4.0 लाइसेंस के तहत प्रकाशित, ये मॉडल वाणिज्यिक उपयोग के लिए उपलब्ध हैं, AI समुदाय में नवाचार को बढ़ावा देते हैं।

तकनीकी रूप से, दोनों मॉडल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। एनकोडर फास्टकोरफॉर्मर पर आधारित है, जो प्रभावी रूप से ऑडियो डीओ सुविधाओं को संसाधित करता है, जबकि ट्रांसफार्मर डिकोडर पाठ पीढ़ी को संभालता है। टास्क-विशिष्ट टोकन, सहित , , और (विराम चिह्न और पूंजीकरण), मॉडल के उत्पादन का मार्गदर्शन करें। कैनरी 1 बी फ्लैश मॉडल में 32 एनकोडर परतें और 4 डिकोडर परतें होती हैं, जिनमें कुल 883 मिलियन आयाम होते हैं, जबकि कैनरी 180 मीटर फ्लैश मॉडल में 17 एनकोडर स्तर और 4 डिकोडर परतें होती हैं, जो 182 मिलियन आयाम हैं। यह डिजाइन विभिन्न भाषाओं और कार्यों के लिए माप और अनुकूलन की गारंटी देता है। ​

प्रदर्शन मैट्रिक्स इंगित करता है कि कैनरी 1 बी फ्लैश मॉडल ओपन एएसआर लीडरबोर्ड डेटासेट पर 1000 से अधिक आरटीएफएक्स से अधिक लाभ प्राप्त करता है, जो वास्तविक समय प्रसंस्करण को सक्षम करता है। अंग्रेजी स्वचालित भाषण सत्यापन (ASR) कार्यों में, यह Librispach स्वच्छ डेटासेट पर 1.48% और Librispatch अन्य डेटासेट पर 2.87% के शब्द त्रुटि दर (WER) प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन 36.3636%, स्पेनिश 5.6969% और एम.एल.एस. परीक्षण सेट पर फ्रेंच के लिए 47.4747% प्राप्त करता है। ऑटो टोमैटिक स्पीच ट्रांसलेशन (एएसटी) फ़ंक्शन में, मॉडल जर्मन के लिए अंग्रेजी के नीले स्कोर के साथ मजबूत प्रदर्शन, जर्मन के लिए 22.27, अंग्रेजी के लिए 22.6, स्पेनिश के लिए 22.6 और फ्लोर्स टेस्ट सेट पर फ्रेंच के लिए 41.22 दिखाता है। ​

20 मार्च 2025 तक डेटा

छोटा कैनरी 180 मीटर फ्लैश मॉडल भी 1200 आरटीएफएक्स की गति के साथ प्रभावशाली परिणाम देता है। यह Librispach स्वच्छ डेटासेट पर 1.87% और अंग्रेजी ASR के लिए Librispach के लिए अन्य डेटासेट पर 3.83% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन के लिए 4.81%, स्पेनिश के लिए 3.17% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 75.7575% रिकॉर्ड करता है। एएसटी वर्क्स में, वह जर्मन के लिए 28.18, अंग्रेजी के लिए 20.47 स्पेनिश के लिए और 36.66 फ्रेंच के लिए अंग्रेजी से फ्लोर्स टेस्ट सेट तक प्राप्त करता है। ​

दोनों मॉडल वर्ड-लेवल और सेगमेंट-लेवल टिमस्टैम्पिंग का समर्थन करते हैं, ऑडियो DIO और टेक्स्ट के बीच एक विशिष्ट कॉन्फ़िगरेशन की आवश्यकता एप्लिकेशन में उनकी उपयोगिता को बढ़ाती है। उनका कॉम्पैक्ट आकार उन्हें -a -device परिनियोजन को तैनात करने में सक्षम बनाता है, ऑफ़लाइन प्रक्रिया को सक्षम करता है और क्लाउड सेवाओं पर निर्भरता को कम करता है। इसके अलावा, उनकी ताकत अधिक विश्वसनीय आउटपुट सुनिश्चित करके अनुवाद कार्यों के दौरान कम भ्रम की ओर ले जाती है। लाइसेंस के तहत CC -BY -4.0 ओपन सोर्स रिलीज समुदाय द्वारा व्यावसायिक उपयोग और आगे के विकास को बढ़ावा देता है।

अंत में, nvidaaaaaaaaaaaaaaaaaaaaaaaaaaaaaiaaaaaiaaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiai उनकी उच्च सटीकता, वास्तविक समय प्रसंस्करण क्षमताओं और ऑन-डिवाइस परिनियोजन के अनुकूलता के क्षेत्र में कई मौजूदा चुनौतियों को संबोधित करता है। इन मॉडलों को सार्वजनिक रूप से उपलब्ध कराकर, NVIDI ने AI अनुसंधान को आगे बढ़ाने के लिए एक प्रतिबद्धता दिखाई है, लेकिन अधिक निगमित और कुशल संचार उपकरण बनाने के लिए डेवलपर्स और संगठनों को भी सशक्त बनाया है।


जाँच करना यह कैनरी 1 बी नमूना और डिब्बे 180 वां फ्लैश। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

Scroll to Top