अधिकांश मौजूद एलएलएम अंग्रेजी, फ्रेंच और जर्मन जैसे प्रचुर मात्रा में प्रशिक्षण संसाधनों के साथ भाषाओं को पसंद करते हैं, जबकि व्यापक रूप से बोली जाती हैं, लेकिन हिंदी, बंगाली और उर्दू जैसी प्रस्तुत भाषाएं कम ध्यान देती हैं। यह असंतुलन कई वैश्विक आबादी के लिए एआई-संचालित भाषा उपकरणों की इबिलिटी को सीमित करता है, जो उच्च गुणवत्ता वाले भाषा प्रसंस्करण समाधानों के बिना अरबों को छोड़ देता है। इस चुनौती को संबोधित करने के लिए, विभिन्न संसाधनों की उपलब्धता के साथ भाषाओं में निरंतर प्रदर्शन देने के लिए मल्टी -टर्म एलएलएम और पीटी izing को प्रशिक्षित करने के लिए अभिनव दृष्टिकोण की आवश्यकता होती है।
बहुभाषी एनएलपी में एक महत्वपूर्ण चुनौती भाषाई संसाधनों का असमान वितरण है। उच्च-संसाधन वाली भाषाएं व्यापक निगमों से लाभान्वित होती हैं, जबकि विकासशील क्षेत्रों में, बोली जाने वाली भाषाओं में अक्सर पर्याप्त प्रशिक्षण डेटा का अभाव होता है। यह सीमा बहुभाषी मॉडल के प्रभाव को प्रभावित करती है, जो प्रस्तुत की गई भाषाओं में बेहतर सटीकता प्रदर्शित करती है, जबकि उन लोगों के साथ संघर्ष करते हुए। इस दूरी को दूर करने के लिए मॉडल की कार्यक्षमता को बनाए रखते हुए भाषा कवरेज का विस्तार करने वाले अभिनव दृष्टिकोणों की आवश्यकता है।
ब्लूम, जीएलएम -4 और क्वेन 2.5 सहित कुछ बहुभाषी एलएलएम ने इस चुनौती को पार करने की कोशिश की है। ये मॉडल कई भाषाओं का समर्थन करते हैं, लेकिन उनकी प्रभावशीलता प्रशिक्षण डेटा की उपलब्धता पर निर्भर करती है। वे दुर्लभ डेटा के साथ भाषाओं में सबप्टिमल प्रदर्शन की पेशकश करते समय व्यापक पाठ्य संसाधनों के साथ भाषाओं को पसंद करते हैं। उदाहरण के लिए, मौजूदा मॉडल अंग्रेजी, चीनी और स्पेनिश में सबसे अच्छे हैं, लेकिन स्वाहिली, जावा या बर्मी को संसाधित करते समय कठिनाइयों का सामना करना पड़ता है। इसके अलावा, इनमें से कई मॉडल पारंपरिक मुद्रण विधियों पर निर्भर करते हैं, जो गणना की आवश्यकताओं को बढ़ाए बिना भाषा भिन्नता को शामिल करने में विफल रहते हैं। भाषा समावेशन में सुधार के लिए संरचित दृष्टिकोणों के बिना, ये मॉडल वास्तव में वैश्विक एनएलपी अनुप्रयोग के लिए अपर्याप्त हैं।
अलीबाबा समूह में उपस्थित दामो अकादमी के शोधकर्ता बुलबुलाबहुभाषी एलएलएम को इस दूरी को पार करने के लिए शीर्ष 25 सबसे अधिक बोली जाने वाली भाषाओं को कवर करके 90% से अधिक वैश्विक वक्ताओं का समर्थन करने के लिए डिज़ाइन किया गया है। Bable प्रदर्शन के साथ समझौता किए बिना अपनी मॉडल क्षमता का विस्तार करने के लिए एक अद्वितीय परत एक्सटेंशन तकनीक का उपयोग करता है। अनुसंधान टीम ने दो मॉडल चर पेश किए: Bable -9b, अनुमान और ठीक -ठीक, और Bable -83b में दक्षता के लिए इष्टतम ptimise, जो बहुभाषी एनएलपी में एक नया बेंचमार्क स्थापित करता है। पिछले मॉडल डेलो के विपरीत, Bable में व्यापक रूप से बोली जाती है, लेकिन अक्सर बंगाली, उर्दू, स्वाहिली और जावनज़ जैसी भाषाओं को नजरअंदाज कर दिया जाता है। शोधकर्ताओं ने एक ठोस पाइपलाइन को लागू करके डेटा की गुणवत्ता को ptiming करने पर ध्यान केंद्रित किया जो कई स्रोतों से उच्च गुणवत्ता वाले प्रशिक्षण डेटासेट को परिक करता है।
Bable की वास्तुकला एक संरचित परत विस्तार दृष्टिकोण को नियोजित करके पारंपरिक बहुभाषी LLMs से अलग है। निरंतर मुद्रण पर भरोसा करने के बजाय, जिसे व्यापक गणना संसाधनों की आवश्यकता होती है, अनुसंधान टीम ने नियंत्रित विस्तार के माध्यम से मॉडल के आयाम को बढ़ाया। कम्प्यूटेशनल दक्षता को संरक्षित करते समय अतिरिक्त स्तरों को रणनीतिक रूप से प्रदर्शन को अधिकतम करने के लिए एकीकृत किया गया था। उदाहरण के लिए, बाबेल -9 बी को गति और बहुभाषी समझ को संतुलित करने के लिए डिज़ाइन किया गया था, जो इसे अनुसंधान और स्थानीय तैनाती के लिए उपयुक्त बनाता है, जबकि बाबेल -83 बी पेशेवर मॉडल से मेल खाने के लिए अपनी क्षमताओं का विस्तार करता है। मॉडल की प्रशिक्षण प्रक्रिया में प्रशिक्षण सामग्री को फ़िल्टर करने और मरम्मत करने के लिए एलएलएम-आधारित गुणवत्ता वर्गीकृतों का उपयोग करते हुए, डेटा-सफाई तकनीक शामिल है। डेटासेट को विभिन्न जड़ों से प्राप्त किया गया था, जिसमें विकिपीडिया, समाचार लेख, पाठ्यपुस्तक और मैडलाड -400 और कल्चरएक्स जैसे संरचित बहुभाषी निगम शामिल हैं।
मूल्यांकन मैट्रिक्स ने मौजूदा बहुभाषी एलएलएम पर BABLE की उत्कृष्टता दिखाई। Bable-9B ने कई बहुभाषी बेंचमार्क में 63.4 का औसत स्कोर हासिल किया, जिसमें GLM 4-9B (59.2) और GEMMA 2-9B (59.5) जैसे प्रमुख प्रतियोगी थे। मॉडल MGSM, 43.4 स्कोर और फ्लोर्स -200 जैसे अनुवाद कार्यों जैसे तर्क कार्यों में 55.1 प्राप्त करता है। इस बीच, बाबेल -83 बी ने बहुभाषी संचालन में एक नया मानक निर्धारित किया, जो औसतन 73.2 तक पहुंच गया, जिसने Qwen2.5-72b (69.8) और लालमा 3.1-70B (66.9) को पार कर लिया। कम संसाधन भाषाओं को संभालने की मॉडल की क्षमता विशेष रूप से महत्वपूर्ण थी, जो पिछले बहुभाषी एलएलएम की तुलना में 5-10% सुधार दिखाती है। इसके अलावा, Bable के देखे गए फाइन -टुनिंग (SFT) मॉडल, 1 मिलियन से अधिक वार्तालाप आधारित डेटासेट पर प्रशिक्षित, GPT -4O जैसे वाणिज्यिक AI मॉडल के साथ तुलनात्मक कार्य प्राप्त किए।

Bable पर शोध से कुछ प्रमुख तकनीक में शामिल हैं:
- Bable दुनिया की 25 सबसे अधिक बोली जाने वाली भाषाओं का समर्थन करता है, जो 90% से अधिक वैश्विक वक्ताओं तक पहुंचता है। स्वाहिली, जावा और बर्मी जैसी कई भाषाओं को पहले ओपन सोर्स एलएलएम से पेश किया गया था।
- पारंपरिक मुद्रण पर भरोसा करने के बजाय, Bable संरचित परत एक्सटेंशन तकनीक का उपयोग करके अपने आयाम को बढ़ाती है, अत्यधिक गणना की मांग के बिना स्केलेबिलिटी बढ़ जाती है।
- अनुसंधान टीम ने एलएलएम-आधारित गुणवत्ता वर्गीकरण का उपयोग करके सख्त डेटा-सफाई तकनीकों को लागू किया। ट्रेनिंग कॉर्पस में विकिपीडिया, सीसी -एनव्स, कल्चरएक्स और मेडलड -400 शामिल हैं, जो उच्च भाषाई सटीकता की गारंटी देता है।
- बाबेल -9 बी एक ही आकार के मॉडल को आगे बढ़ाते हैं, औसत स्कोर प्राप्त करते हैं। इन मॉडलों ने तर्क, अनुवाद और बहुभाषी समझ कार्यों में परिष्कृत प्रदर्शन दिखाया।
- बाबेल भाषाओं के साथ सीमित प्रशिक्षण डेटा के लिए सटीकता में सुधार करता है, मौजूदा बहुभाषी एलएलएम की तुलना में कम्प्रेसेंट भाषाओं में 10% बेहतर प्रदर्शन प्राप्त करता है।
- Bable-83b-Chet।
- देखे गए फाइन-ट्यूनिंग (SFT) डेटासेट में 1 मिलियन वार्तालाप शामिल हैं, जिससे Bable-9b-Chet और Bable-83b-Chet को बहुभाषी चर्चाओं और समस्याओं को हल करने में वाणिज्यिक AI मॉडल में योगदान करने की अनुमति मिलती है।
- अनुसंधान टीम का दावा है कि अधिक वृद्धि, जैसे कि अतिरिक्त कॉन्फ़िगरेशन और चयन ट्यूनिंग को शामिल करना, Bable की क्षमताओं को बढ़ा सकता है, जिससे यह एक मजबूत बहुभाषी AI उपकरण बन जाता है।
जाँच करना कागज पर मॉडल, गुइथब पेज, एचएफ और प्रोजेक्ट पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए

ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।
🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)