NVIDIA AI ओपन केवल खट्टा कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल

March 20, 2025

Dr. Ashish V

कृत्रिम बुद्धिमत्ता के क्षेत्र में, बहुभाषी भाषण मान्यता और अनुवाद वैश्विक संचार की सुविधा के लिए आवश्यक उपकरण बन गए हैं। हालांकि, विकासशील मॉडल जो वास्तविक समय में कई भाषाओं को सटीक रूप से लिखते हैं और अनुवाद करते हैं, महत्वपूर्ण चुनौतियों का प्रतिनिधित्व करते हैं। इन चुनौतियों में विभिन्न भाषाई बारीकियों का संचालन करना, उच्च सटीकता बनाए रखना, कम देरी सुनिश्चित करना और विभिन्न उपकरणों पर मॉडल को प्रभावी ढंग से तैनात करना शामिल है।

इन चुनौतियों को पार करने के लिए, NVIDI AI में दो मॉडल खुले हैं: कैनरी 1 बी फ्लैश और कैनरी 180 मीटर फ्लैश। ये मॉडल बहुभाषी भाषण मान्यता और अनुवाद के लिए डिज़ाइन किए गए हैं, जो अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश जैसी भाषाओं का समर्थन करते हैं। अनुमेय CC -BUY -4.0 लाइसेंस के तहत प्रकाशित, ये मॉडल वाणिज्यिक उपयोग के लिए उपलब्ध हैं, AI समुदाय में नवाचार को बढ़ावा देते हैं।

तकनीकी रूप से, दोनों मॉडल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। एनकोडर फास्टकोरफॉर्मर पर आधारित है, जो प्रभावी रूप से ऑडियो डीओ सुविधाओं को संसाधित करता है, जबकि ट्रांसफार्मर डिकोडर पाठ पीढ़ी को संभालता है। टास्क-विशिष्ट टोकन, सहित , , और (विराम चिह्न और पूंजीकरण), मॉडल के उत्पादन का मार्गदर्शन करें। कैनरी 1 बी फ्लैश मॉडल में 32 एनकोडर परतें और 4 डिकोडर परतें होती हैं, जिनमें कुल 883 मिलियन आयाम होते हैं, जबकि कैनरी 180 मीटर फ्लैश मॉडल में 17 एनकोडर स्तर और 4 डिकोडर परतें होती हैं, जो 182 मिलियन आयाम हैं। यह डिजाइन विभिन्न भाषाओं और कार्यों के लिए माप और अनुकूलन की गारंटी देता है।

प्रदर्शन मैट्रिक्स इंगित करता है कि कैनरी 1 बी फ्लैश मॉडल ओपन एएसआर लीडरबोर्ड डेटासेट पर 1000 से अधिक आरटीएफएक्स से अधिक लाभ प्राप्त करता है, जो वास्तविक समय प्रसंस्करण को सक्षम करता है। अंग्रेजी स्वचालित भाषण सत्यापन (ASR) कार्यों में, यह Librispach स्वच्छ डेटासेट पर 1.48% और Librispatch अन्य डेटासेट पर 2.87% के शब्द त्रुटि दर (WER) प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन 36.3636%, स्पेनिश 5.6969% और एम.एल.एस. परीक्षण सेट पर फ्रेंच के लिए 47.4747% प्राप्त करता है। ऑटो टोमैटिक स्पीच ट्रांसलेशन (एएसटी) फ़ंक्शन में, मॉडल जर्मन के लिए अंग्रेजी के नीले स्कोर के साथ मजबूत प्रदर्शन, जर्मन के लिए 22.27, अंग्रेजी के लिए 22.6, स्पेनिश के लिए 22.6 और फ्लोर्स टेस्ट सेट पर फ्रेंच के लिए 41.22 दिखाता है।

20 मार्च 2025 तक डेटा

छोटा कैनरी 180 मीटर फ्लैश मॉडल भी 1200 आरटीएफएक्स की गति के साथ प्रभावशाली परिणाम देता है। यह Librispach स्वच्छ डेटासेट पर 1.87% और अंग्रेजी ASR के लिए Librispach के लिए अन्य डेटासेट पर 3.83% प्राप्त करता है। बहुभाषी एएसआर के लिए, मॉडल जर्मन के लिए 4.81%, स्पेनिश के लिए 3.17% और एमएलएस परीक्षण सेट पर फ्रेंच के लिए 75.7575% रिकॉर्ड करता है। एएसटी वर्क्स में, वह जर्मन के लिए 28.18, अंग्रेजी के लिए 20.47 स्पेनिश के लिए और 36.66 फ्रेंच के लिए अंग्रेजी से फ्लोर्स टेस्ट सेट तक प्राप्त करता है।

दोनों मॉडल वर्ड-लेवल और सेगमेंट-लेवल टिमस्टैम्पिंग का समर्थन करते हैं, ऑडियो DIO और टेक्स्ट के बीच एक विशिष्ट कॉन्फ़िगरेशन की आवश्यकता एप्लिकेशन में उनकी उपयोगिता को बढ़ाती है। उनका कॉम्पैक्ट आकार उन्हें -a -device परिनियोजन को तैनात करने में सक्षम बनाता है, ऑफ़लाइन प्रक्रिया को सक्षम करता है और क्लाउड सेवाओं पर निर्भरता को कम करता है। इसके अलावा, उनकी ताकत अधिक विश्वसनीय आउटपुट सुनिश्चित करके अनुवाद कार्यों के दौरान कम भ्रम की ओर ले जाती है। लाइसेंस के तहत CC -BY -4.0 ओपन सोर्स रिलीज समुदाय द्वारा व्यावसायिक उपयोग और आगे के विकास को बढ़ावा देता है।

अंत में, nvidaaaaaaaaaaaaaaaaaaaaaaaaaaaaaiaaaaaiaaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiaiai उनकी उच्च सटीकता, वास्तविक समय प्रसंस्करण क्षमताओं और ऑन-डिवाइस परिनियोजन के अनुकूलता के क्षेत्र में कई मौजूदा चुनौतियों को संबोधित करता है। इन मॉडलों को सार्वजनिक रूप से उपलब्ध कराकर, NVIDI ने AI अनुसंधान को आगे बढ़ाने के लिए एक प्रतिबद्धता दिखाई है, लेकिन अधिक निगमित और कुशल संचार उपकरण बनाने के लिए डेवलपर्स और संगठनों को भी सशक्त बनाया है।

जाँच करना यह कैनरी 1 बी नमूना और डिब्बे 180 वां फ्लैश। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।

ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

NVIDIA AI ओपन केवल खट्टा कैनरी 1 बी और 180 मीटर फ्लैश – बहुभाषी भाषण मान्यता और अनुवाद मॉडल

Dr. Ashish V

You might also enjoy

Discover How Manus AI Can Boost Your Email Marketing #shorts #manus #emailmarketing

Hyundai Verna come with all premium look, features is luxury

Aaganwadi Worker: आंगनवाड़ी कार्यकर्ता एवं सहायिका बनने का 10वीं 12वीं पास के लिए सुनहरा अवसर

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace