एनकोडर मॉडल जैसे कि बर्ट और रॉबर्टा प्राकृतिक भाषा प्रसंस्करण (एनएलपी) की नींव हैं, जो पाठ वर्गीकरण, वसूली और विषाक्त जांच जैसे कार्यों को शक्ति प्रदान करते हैं। हालांकि, जब जीपीटी और डिकोडर-आधारित बड़े-आधारित मॉडल डेल्स (एलएलएम), जैसे कि लालमा, ने तेजी से-आर्किटेक्ट्यूरल इनोवेशन, बड़े डेटासेट और विस्तारित संदर्भ विंडोज-एककोडर्स विकसित किए हैं। एम्बेड-आधारित एप्लिकेशन में उनकी महत्वपूर्ण भूमिका के बावजूद, बर्ट-फैमिली मॉडल डेल्स पुराने आर्किटेक्चर, सीमित प्रशिक्षण डेटा और लघु संदर्भ लंबाई पर निर्भर करता है, जो आधुनिक बेंचमार्क पर उप-प्रदर्शन प्रदर्शन की ओर जाता है। इस पत्र में, शोधकर्ताओं ने मौजूदा एन्कोडर्स के तहत सीमाओं को संबोधित करते हुए डिकोडर मॉडल से प्रगति को एकजुट करके एनकोडर डिजाइन को पुनर्जीवित करने के लिए Neobert को पेश किया है।
बर्ट और रॉबर्टा जैसे पारंपरिक एनकोडर पूर्ण स्थितिगत एम्बेडिंग, गाऊसी एर लीनियर यूनिट (ग्लू) सक्रियण और फिक्स्ड 512-टोकन संदर्भ विंडो का उपयोग करते हैं। जबकि जीटीई और सीडीई जैसे नए मॉडल ने रेडी प्रोक्योरमेंट जैसे कार्यों के लिए ठीक-ट्यूनिंग रणनीति में सुधार किया है, वे बर्ट से विरासत में प्राप्त पुराने बैकबोन आर्किटेक्चर पर निर्भर हैं। यह बैकबोन अनुचित से पीड़ित हैं:
- वास्तुशिल्प कठोरता: स्थिर गहराई चौड़ाई अनुपात और स्थिति के एन्कोडिंग विधियों को सीमित करता है जो लंबे अनुक्रमों तक अनुकूलनशीलता को सीमित करता है।
- डेटा की कमी: छोटे डेटासेट पर प्री-टैलिस्मन (विकिपीडिया + बुककोर्पस) जूनोवलेज की विविधता को प्रतिबंधित करता है।
- संदर्भ बाधाएं: लघु-रैंक की लंबाई (512-2,048 टोकन) उन अनुप्रयोगों में बाधा डालती है जिनके लिए लंबे समय तक सांस की आवश्यकता होती है।
नवीनतम फाइन-ट्यूनिंग प्रगति ने इन मुद्दों को ked किया लेकिन प्रमुख मॉडलों को आधुनिक बनाने में विफल रहे। उदाहरण के लिए, GTE की परस्पर विरोधी शिक्षा भुनाने वाले प्रभाव को बढ़ाती है, लेकिन बर्ट के अप्रचलित एम्बेडिंग के लिए क्षतिपूर्ति नहीं कर सकती है। पड़ोसी आर्किटेक्चरल overh uls ls, डेटा स्केलिंग और इष्टतम ptimes बाहरी इस gavings को संबोधित करते हैं:
- वास्तुशिल्प आधुनिकीकरण:
- रोटरी स्थिति एम्बेडिंग (रस्सी): प्रासंगिक स्थिति के साथ सही स्थिति के एम्बेडिंग को प्रतिस्थापित करता है, जो लंबे अनुक्रमों में बेहतर सामान्यीकरण को सक्षम करता है। रस्सी स्थिति की जानकारी को सीधे ध्यान के तरीकों में एकीकृत करता है, जो वितरित की लंबाई पर अध: पतन को कम करता है।
- गहराई की चौड़ाई चौड़ाई इष्टतम पेटिमाइजेशन: छोटे मॉडलों की “चौड़ाई-एथिक्स” से बचने के लिए, दक्षता और प्रदर्शन को संतुलित करने के लिए परत (28 परतों) और चौड़ाई (768 आयामों) की गहराई को समायोजित करता है।
- आरएमएस मानदंड और स्विग्लू: त्वरित गणना के लिए RMSNORM के साथ lenorm को बदल देता है और आयाम गणना को बनाए रखते हुए नॉनलाइनर मॉडलिंग को बढ़ाते हुए, स्विग्लू सक्रियण को अपनाता है।
- डेटा और प्रशिक्षण:
- REFINDWAB डेटासेट: 600B टोकन (रॉबर्टा के डेटा से 18 × बड़ी) पर ट्रेनों ने मॉडल को अलग-अलग, वास्तविक दुनिया के पाठ में उजागर किया।
- दो-चरण संदर्भ विस्तार: 1,024-टोकन सीक्वेंस पहली प्री-ट्रेन, फिर मानक और लंबे संदर्भ डेटा के संयोजन का उपयोग करके 4,096-टोकन बैच पर फाइन-ट्यून। यह चरणबद्ध दृष्टिकोण एक उपयोगी संदर्भ का विस्तार करते समय वितरण के बदलाव को कम करता है।
- दक्षता इष्टतम ptimization:
- फ्लैश अटैचमेंट और एक्सफॉर्मर्स: लंबे अनुक्रमों के लिए मेमोरी ओवरहेड को कम करें।
- कोसिन दशकों के साथ ADAMV: शेष प्रशिक्षण स्थिरता और नियमितीकरण। प्रदर्शनी और मूल्यांकन
Neobert के अपडेट निम्नलिखित बेंचमार्क में मान्य हैं:
- गोंद: 89.0%स्कोर, 100 वें कम आयामों के बावजूद रॉबर्टा-बड़े के प्रदर्शन से मेल खाते हैं। प्रमुख ड्राइवरों में रिफाइंडवाब डेटासेट (+3.6% लाभ) और स्केल्ड मॉडल आकार (+2.9%) शामिल हैं।
- Mteb: GTE, CDE, मानक विपरीत-ट्यूनिंग के तहत, सबसे अच्छी एम्बेडिंग गुणवत्ता दिखाते हुए। और जीना-एंबेडिंग के लिए +%। %% द्वारा आउटपरफॉर्म। मूल्यांकन सभी मॉडलों के लिए एक ही फाइन-ट्यूनिंग प्रोटोकॉल को लागू करके पूर्व-प्रतिभाशाली लाभों को अलग करता है।
- संदर्भ लंबाई: Neobert 4096 50K अतिरिक्त प्रशिक्षण उपायों के बाद 4,096-टोकन अनुक्रमों में एक स्थिर विकार प्राप्त करता है, जबकि बर्ट 512 टोकन के साथ संघर्ष करता है। दक्षता परीक्षण Neobert प्रक्रियाओं से पता चलता है कि बड़े आकार के बावजूद, 46.7% 46.7% तेजी से।
अंत में, Neobert मॉडल के लिए एक उदाहरण के बदलाव का प्रतिनिधित्व करता है, स्थिर आर्किटेक्ट्स और आधुनिक एलएलएम के बीच की दूरी को समाप्त करता है। गहराई गोंद और MTEB पर एक आधुनिक प्रदर्शनी है, जिसमें गहराई-से-चौड़ाई अनुपात, राज्य के एन्कोडिंग और डेटा स्केलिंग का प्रतिरोध है, जबकि संदर्भ BERT की तुलना में आठ गुना अधिक समय तक खिड़कियों का समर्थन करता है। इसकी दक्षता और खुला स्रोत उपलब्धता इसे पुनर्प्राप्ति, वर्गीकरण और वास्तविक दुनिया के अनुप्रयोगों के लिए एक प्रयोगात्मक चयन बनाती है, जिसमें मजबूत एम्बेडिंग की आवश्यकता होती है। हालांकि, वेब-स्केल डेटा पर निर्भरता, पूर्वाग्रह प्रस्तुत करता है, क्लीनर डेटासेट को चल रहे अपडेट की आवश्यकता होती है। पड़ोसी की सफलता एनकोडर आधुनिकीकरण की गड़बड़ संभावना को दर्शाती है, एक कुशल, स्केलेबल भाषा समझ में भविष्य के अनुसंधान के लिए एक मार्ग की स्थापना करती है।
जाँच करना एक गले के चेहरे पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एकीकृत करने वाला एक उन्नत प्रणाली

विनीत कुमार मार्केटचपोस्ट में एक परामर्श इंटर्न है। वह वर्तमान में कानपुर में भारतीय प्रौद्योगिकी संस्थान (IIT) से बीएस का पीछा कर रहे हैं। वह मशीन लर्निंग उत्साही है। यह अनुसंधान और गहरी शिक्षा, कंप्यूटर दृष्टि और संबंधित क्षेत्रों में नवीनतम प्रगति के बारे में उत्साही है।
🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)