Micros .ft AI लॉन्ग्रोप 2 प्रकाशित करता है 2: 97% से अधिक द्वारा बनाए रखने के दौरान 128K टोकन तक बड़े भाषा के मॉडल संदर्भ विंडोज का विस्तार करने की एक करीबी-हड़ताली विधि

बड़ी भाषा मॉडल डेल (एलएलएम) में काफी आगे बढ़ गए हैं, लेकिन मुख्य सीमा लंबे समय से लंबे समय से अनुक्रमों को प्रभावी ढंग से संसाधित करने में उनकी अक्षमता है। जबकि GPT-4O और लालामा 3.1 जैसे मॉडल 128K टोकन तक संदर्भ विंडो का समर्थन करते हैं, विस्तारित लंबाई पर उच्च प्रदर्शन बनाए रखना चुनौतीपूर्ण है। रोटरी पॉजिटिव एंबेडिंग (रोप) एलएलएम में स्थिति की जानकारी को एनकोड करता है, लेकिन उनकी पूर्व-शिक्षित सीमाओं से परे लागू होने पर बाहरी वितरण (OOD) मुद्दों से ग्रस्त है। ये OOD मान उच्च-आयामी रस्सी एम्बेडिंग में दिखाई देते हैं, जिससे अपक्षयी संचालन होता है। मल्टी-टर्न संचार, दस्तावेज़ विश्लेषण और लंबे समय के तर्क जैसे एआई अनुप्रयोगों के लिए लंबे संदर्भ विंडो की आवश्यकता होती है। एलएलएमएस दक्षता और सटीकता के साथ संघर्ष करता है जब प्रभावी विस्तार विधि के बिना अपने डिफ़ॉल्ट एलटी लंबाई से परे स्केलिंग।

संदर्भ विंडो का विस्तार करने के लिए अधिकांश मौजूदा तरीके हर्स्टिक-आधारित रस्सी को फिर से शुरू करने पर निर्भर करते हैं, जो OOD मुद्दों को पूरी तरह से संबोधित करने में विफल रहता है और अक्सर लक्ष्य प्रभावी संदर्भ लंबाई से कम होता है। यार्न, एनटीके और लॉन्ग्रोप जैसे दृष्टिकोण सैद्धांतिक मॉडल डेलो से बचाव कारक प्राप्त करते हैं, लेकिन वास्तविक दुनिया परीक्षण महत्वपूर्ण संचालन व्यापार प्रदर्शित करते हैं। उदाहरण के लिए, जब लालमा 3.1 यार्न का उपयोग करके अपनी संदर्भ विंडो का विस्तार करता है, तो प्रदर्शनी 64k टोकन की तुलना में तेजी से कम हो जाती है, जैसा कि सत्तारूढ़ बेंचमार्क में दिखाया गया है। संदर्भ की लंबाई में वृद्धि अक्सर कम-सममित प्रदर्शन को कम करती है, जिससे ये विधियाँ छोटी और लंबी दूरी के प्रसंस्करण अनुप्रयोगों के लिए अव्यवहारिक हो जाती हैं। यह मुद्दा PHI3-MINI-3.8B जैसे मॉडलों में विशेष रूप से गंभीर है, जहां भोले रस्सी एक्सटेंशन MMLU स्कोर को 7.56 अंक तक कम करते हैं।

माइक्रो के शोधकर्ताओं ने पेश किया है लंबे समय तक 2 इन सीमाओं को दूर करने के लिए। लॉन्ग्रोप 2 एलएलएम संदर्भ विंडो को 98.5% से अधिक संक्षिप्त संदर्भ सटीकता की बचत करते हुए 128k टोकन तक विस्तार करने के लिए डिज़ाइन किया गया है। यह तीन मुख्य मुद्दों को ध्यान में रखते हुए इसे प्राप्त करता है। सबसे पहले, अनुसंधान टीम ने अनुमान लगाया कि उच्च रस्सी आयाम अपर्याप्त प्रशिक्षण प्राप्त करते हैं, जिससे टोकन पदों का विस्तार करते हुए अप्रत्याशित OOD मूल्यों के लिए अग्रणी होता है। इसे कम करने के लिए, लॉन्ग्रोप 2 एक सुई-संचालित घबराहट (पीपीएल) मूल्यांकन प्रस्तुत करता है जो विशेष रूप से टोकन को लक्षित करता है, जिसमें पारंपरिक पैराइजिंग उपायों के विपरीत, गहरी पांडा की संबंधित समझ की आवश्यकता होती है, जो आवश्यक और गैर-आवश्यक टोकन के बीच अंतर करने में विफल रहता है। दूसरा, लॉन्ग्रोप 2 इवोल्यूशनरी सर्च-बेस्ड रोप रेसलिंग एल्गोरिथ्म को अपनाता है, जो कि सैद्धांतिक मान्यताओं से विस्तारित संदर्भों, उत्कृष्ट बचाव कारकों के साथ बेहतर कॉन्फ़िगरेशन सुनिश्चित करता है। अंत में, इसमें एक मिश्रित संदर्भ विंडो प्रशिक्षण शामिल है, जिसमें मॉडल को छोटे और लंबे अनुक्रमों पर बारीक रूप से ट्यून किया जाता है, जिससे प्रभावी लंबे समय से अनुकूलन सुनिश्चित करते हुए छोटे-छोटे कार्यों पर संचालन के नुकसान को रोका जाता है।

लॉन्ग्रोप 2 के लिए तकनीकी दृष्टिकोण रस्सी एम्बेडिंग में सही महत्वपूर्ण पैरामीटर की पहचान करने के साथ शुरू होता है। अध्ययन में पाया गया है कि सैद्धांतिक महत्वपूर्ण पैरामीटर सही रस्सी स्केलिंग की आवश्यकताओं को कम आंकते हैं, जैसा कि अनुभवजन्य टिप्पणियों द्वारा स्पष्ट किया गया है, जहां रस्सी के आयामों को सबसे अच्छे प्रदर्शन के लिए बड़े-से-सुरुचिपूर्ण स्केलिंग कारकों से बड़े की आवश्यकता होती है। यह अनुकूली रेजेलिंग विधि विकसित करता है जो एक बार -बार विकास का उपयोग करके रस्सी स्केलिंग कारकों को समाप्त करता है। पिछले स्थिर स्केलिंग विधियों के विपरीत, लॉन्ग्रोप 2 गतिशील रूप से प्रति-टोकन पारलैसिटी मूल्यांकन के आधार पर रेसलिंग को समायोजित करता है, यह सुनिश्चित करता है कि लंबे संदर्भ में उनकी प्रभावशीलता को अधिकतम करते समय एम्बेडिंग एक पूर्व-प्रशिक्षित श्रेणी में बने रहें। एल्गोरिथ्म के निचले आयामों में एनटीके स्केलिंग को लागू करते समय, एक सरल अनुकूलन प्रक्रिया सुनिश्चित करते समय, रस्सी के आयामों के लिए सर्वोत्तम रक्षा कारकों की पहचान करता है। यह विधि प्रभावी रूप से लालमा को 3-8b से 128K टोकन तक विस्तारित करती है, इसकी छोटी संदर्भ सटीकता के 97% से अधिक को बनाए रखता है, जबकि लंबे संदर्भ-वित्त पोषित बेंचमार्क पर पिछले तरीकों को वापस लेता है।

प्रदर्शनी मूल्यांकन से विभिन्न बेंचमार्क में लॉन्ग्रोप 2 की उत्कृष्टता का पता चलता है। व्यापक PHI3-MINI-3.8B और LAMA3-8B परीक्षण से पता चलता है कि Longrope 2 को नवीनतम शासक, लॉन्गबेंच और Anantbench परिणाम प्राप्त होते हैं। सत्तारूढ़ बेंचमार्क पर, जो एलएलएमएस लॉन्ग-रेडी प्रक्रिया की क्षमताओं का मूल्यांकन करता है, लॉन्ग्रोप 2 ने लामा लामा को 3-8 बी का विस्तार किया, जबकि .04.3 का स्कोर बनाए रखा, जबकि लॉन्गरोप के लिए 73.40 और यार्न के लिए 49.39 की तुलना में। PHI3-MINI-3.8B स्कोर 58.81 का 128K टोकन स्कोर के साथ, NTK के साथ महत्वपूर्ण रूप से बेहतर प्रदर्शन के साथ, अधिक उन्नयन दिखाया, जिसने एक ही संदर्भ लंबाई में केवल 49.37 प्राप्त किया। सबसे आश्चर्यजनक निष्कर्षों में से एक यह था कि मेटा के दृष्टिकोण में 800B प्रशिक्षण टोकन को 128k टोकन तक पहुंचने की आवश्यकता थी, जबकि लॉन्ग्रोप 2 ने इसे केवल 10B टोकन, 80x दक्षता का उपयोग करके पूरा किया। इसके अलावा, लॉन्ग्रोप 2 हेस्टेक दबाव परीक्षण ने सुई में निकटतम सटीकता प्राप्त की, जो लंबे अनुक्रमों में गहराई से बंड द्वारा एम्बेडेड जानकारी प्राप्त करने की अपनी क्षमता को दिखाती है, जहां एनटीके जैसे पिछले तरीके अक्सर लंबाई का विस्तार करने में विफल रहे।

इस शोध से मुख्य उपायों में से एक यह है कि एलएलएम संदर्भ खिड़कियों को बढ़ाना न केवल टोकन लंबाई को बढ़ाने का मामला है, बल्कि स्थिति के एम्बेडिंग में मूल सीमाओं को संबोधित करने की आवश्यकता है। निष्कर्ष बताते हैं कि रस्सी लिंग रस्सी के आयाम अपर्याप्त प्रशिक्षित हैं, जिसके लिए निश्चित रूप से फैलने वाले कारकों के बजाय अनुकूली स्केलिंग की आवश्यकता होती है। सुई -आधारित पीपीएल मूल्यांकन सबसे अच्छा रस्सी स्केलिंग कारकों की पहचान करने में महत्वपूर्ण साबित हुआ, यह सुनिश्चित करते हुए कि मॉडल लंबी दूरी की निर्भरता में सटीकता बनाए रखते हैं। मिश्रित संदर्भ विंडो प्रशिक्षण प्रौद्योगिकी ने सुनिश्चित किया कि मॉडल ने अपनी छोटी संदर्भ प्रदर्शनी के 97.6% से अधिक को बरकरार रखा, जो कि लॉन्ग्रोप 2 को पहला निकटतम-डिक्रिज्ड एक्सटेंशन विधि बना रहा है। इसके अलावा, रस्सी बचाव कारकों के लिए लॉन्ग्रोप 2 के विकास से पता चलता है कि पिछले विश्लेषणात्मक तरीके उच्च-आयामी एंबेडिंग में स्केलिंग की आवश्यकताओं को कम करते हैं, जिससे पिछले दृष्टिकोणों में उप-प्रभाव पड़ता है।

शोध से कुछ प्रमुख हाइलाइट्स में शामिल हैं:

  1. Longrop 2 सफलतापूर्वक 128.03% सटीकता के साथ लालमा 3-8B का विस्तार करता है, जो 128K टोकन तक है, जो पिछले सभी तरीकों से अधिक है।
  2. मेटा के दृष्टिकोण के विपरीत, जिसमें 800B प्रशिक्षण टोकन की आवश्यकता होती है, लॉन्ग्रोप 2 ने सिर्फ 10B टोकन का उपयोग करके एक ही एक्सटेंशन हासिल किया, जिससे यह 80x अधिक कुशल हो गया।
  3. मॉडल डेल ने छोटे संदर्भ प्रदर्शन का 97.6% बरकरार रखा, जबकि पिछले तरीके काफी हद तक पतित हैं।
  4. सुई-संचालित पिल्ला के मूल्यांकन ने सर्वश्रेष्ठ रस्सी-बचाव कारकों का निर्धारण करने के लिए एक अभिनव विधि पेश की, जिसने एक लंबे संदर्भ में एक निश्चित अनुकूलन दिया।
  5. सत्तारूढ़ बेंचमार्क पर, लॉन्ग्रोप 2 ने 128K पर 82.03 बनाया, जबकि लॉन्गरोप के लिए 73.40 और यार्न के लिए 49.39 की तुलना में।
  6. मॉडल डेल हेस्ट एके एके ने सुई में निकटतम पूर्ण पुनर्प्राप्ति सटीकता का परीक्षण किया, NTK -आधारित दृष्टिकोणों को महत्वपूर्ण रूप से धकेल दिया।
  7. लॉन्ग्रोप 2 ने दिखाया कि अनुकूली विकास खोज-आधारित स्केलिंग स्थिर नस्लीय तकनीकों की तुलना में बहुत बेहतर है।

जाँच करना कागज़ और Githb -page इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एकीकृत करने वाला एक उन्नत प्रणाली


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top