एमओआई आर्किटेक्चर में फिर से विचार करना: चेन-एफ-विशेषज्ञों के दृष्टिकोण पर एक मापा नज़र

बड़े भाषा मॉडल डेलो ने कृत्रिम बुद्धिमत्ता की हमारी समझ को काफी आगे बढ़ाया है, हालांकि इन मॉडलों को स्केल करना प्रभावी रूप से चुनौतीपूर्ण है। पारंपरिक मिक्स-एफ-विशेषज्ञ (एमओई) आर्किटेक्चर गणना के आर्थिककरण के लिए प्रति टोकन के विशेषज्ञों के सबसेट को सक्रिय करते हैं। हालांकि, यह डिजाइन दो महत्वपूर्ण मुद्दों की ओर जाता है। सबसे पहले, विशेषज्ञ अलगाव में टोकन की प्रक्रिया करते हैं-प्रत्येक विशेषज्ञ बिना किसी क्रॉस-वाणिज्यिक के स्वतंत्र रूप से काम करते हैं। यह पृथक्करण प्रक्रिया के दौरान विभिन्न दृष्टिकोणों का उपयोग करने के लिए एक मॉडल की क्षमता को सीमित कर सकता है। दूसरा, हालांकि एमओई आर्किटेक्चर बिखरे हुए सक्रियण पैटर्न का उपयोग करते हैं, उन्हें महत्वपूर्ण मेमोरी की आवश्यकता होती है क्योंकि भले ही कुछ ही एक ही समय में सक्रिय हों, समग्र आयाम अधिक है। इन चुनौतियों से पता चलता है कि जब एमओई मॉडल स्केलेबिलिटी में एक कदम आगे हैं, तो उनका अंतर्निहित डिजाइन प्रदर्शन और संसाधन दक्षता को सीमित कर सकता है।

चेन-एफपी-विशेषज्ञ (सीओई) दृष्टिकोण

चेन-एफ-विशेषज्ञ (सीओई) विशेषज्ञों के बीच अनुक्रमिक संचार के लिए एक विधि पेश करके एमओई आर्किटेक्ट्स का एक विचारशील उत्थान प्रदान करता है। पारंपरिक एमओई मॉडल में देखी गई स्वतंत्र प्रक्रिया के विपरीत, सीओई टोकन प्रत्येक स्तर के भीतर पुनरावृत्ति की सीमा को संसाधित करने की अनुमति देते हैं। इस कॉन्फ़िगरेशन में, एक विशेषज्ञ का आउटपुट अगले के लिए इनपुट के रूप में कार्य करता है, एक वार्तालाप श्रृंखला बनाता है जो विशेषज्ञों को एक दूसरे के काम को स्थानांतरित करने में सक्षम बनाता है। यह क्रमिक बातचीत केवल परतों को ढेर नहीं करती है; यह टोकन प्रसंस्करण के लिए एक अधिक एकीकृत दृष्टिकोण की सुविधा देता है, जहां प्रत्येक विशेषज्ञ पिछले आउटपुट के आधार पर टोकन की व्याख्या में सुधार करता है। परिणाम एक ऐसा मॉडल है जो अपने विशेषज्ञों के सहयोगी संभावना का लाभ देता है जो मेमोरी का अधिक प्रभावी ढंग से उपयोग करने का लक्ष्य रखते हैं () () () () () () () () ()

तकनीकी विवरण और लाभ

COE विधि के केंद्र में एक दोहराव प्रक्रिया है जो विशेषज्ञों पर प्रतिक्रिया करती है कि वे कैसे संपर्क करते हैं। उदाहरण के लिए, COE -2 (4/64) के रूप में वर्णित कॉन्फ़िगरेशन पर विचार करें: मॉडल प्रति टोकन दो पुनरावृत्ति के साथ काम करता है, जिसमें प्रत्येक चक्र के उपलब्ध 64 उपलब्ध विशेषज्ञों के पूल से चार विशेषज्ञों का चयन किया जाता है। यह डिज़ाइन पारंपरिक एमओई सेटअप के साथ विपरीत है, जो विशेषज्ञों के पूर्व-चयनित समूह से एक ही पास पर निर्भर करता है।

COE में मुख्य तकनीकी तत्व एक स्वतंत्र गेटिंग तंत्र है। पारंपरिक एमओई मॉडल में, गेटिंग फ़ंक्शन चुनता है कि कौन से विशेषज्ञों को टोकन को संसाधित करना चाहिए, लेकिन इन निर्णयों को प्रति स्तर प्रति टोकन एक बार लिया जाता है। सीओई प्रत्येक संशोधन के दौरान प्रत्येक विशेषज्ञ के गेटिंग निर्णय को स्वतंत्र रूप से होने की अनुमति देकर इस विचार का विस्तार करता है। यह लचीलापन विशेषता के रूप को बढ़ावा देता है, जहां एक विशेषज्ञ पिछले दोहराव से प्राप्त जानकारी के आधार पर प्रक्रिया को समायोजित कर सकता है।

इसके अलावा, COE में आंतरिक अवशेष कनेक्शन का उपयोग मॉडल को और बेहतर बनाता है। केवल मूल टोकन को प्रसंस्करण (बाहरी अवशिष्ट अनुलग्नक) के पूर्ण आदेश में वापस जोड़ने के बजाय, सीओई प्रत्येक संशोधन के भीतर अवशिष्ट कनेक्शन को एकीकृत करता है। यह डिज़ाइन प्रत्येक चरण पर अतिरिक्त सुधार की अनुमति देते समय टोकन जानकारी की अखंडता को बनाए रखने में मदद करता है।

ये तकनीकी नवाचार सामूहिक रूप से एक मॉडल में योगदान करते हैं जो न केवल कम संसाधनों के साथ प्रभाव को बनाए रखता है, बल्कि एक अधिक संवेदनशील प्रसंस्करण तरीका भी प्रदान करता है जो विशेष रूप से उन कार्यों के लिए मूल्यवान हो सकता है जिन्हें स्तरित तर्क की आवश्यकता होती है।

प्रायोगिक परिणाम और अंतर्दृष्टि

अनुभवजन्य अध्ययन एक चेन-एफ-विशेषज्ञों की विधि की संभावना को दर्शाता है। नियंत्रित प्रयोगों में, गणित से संबंधित कार्यों पर प्रेट्रिंग-सीओई -2 (4/64) जैसे संगठनों ने एक ही गणना के तहत पारंपरिक एमओई मॉडल की तुलना में मान्यता हानि (1.20 से 1.12 तक) में कमी देखी है। यह सुधार समग्र मेमोरी या गणना लागत को बढ़ाए बिना प्राप्त किया जाता है, क्योंकि क्रमिक संचार प्रत्येक विशेषज्ञ की क्षमता के अधिक प्रभावी उपयोग को सक्षम बनाता है।

अधिक मूल्यांकन से पता चला है कि सीओई। एक ही पास में पुनरावृत्ति की गणना बढ़ाने से एकल पास में चुने गए विशेषज्ञों की संख्या बढ़ाकर प्राप्त या अधिक का तुलनात्मक लाभ प्रदान किया जा सकता है। उदाहरण के लिए, यहां तक ​​कि जब मेमोरी और कंप्यूट बजट को लगातार रखा जाता है, तो सीओई कॉन्फ़िगरेशन समान या बेहतर प्रदर्शन परिणाम प्राप्त करते समय मेमोरी की खपत में 18% की कमी दिखाते हैं।

इसके अलावा, सीओई का अनुक्रमिक डिजाइन पारंपरिक तरीकों से 823 गुना से अधिक महत्वपूर्ण बड़ी संख्या में विशेषज्ञ संयोजनों को खोलता है। संभावित विशेषज्ञ तरीकों में इस नाटकीय वृद्धि का मतलब है कि मॉडल में प्रत्येक टोकन को संसाधित करते समय विकल्पों का एक अधिक समृद्ध सेट है, संभवतः एक मजबूत और विशेष आउटपुट के लिए अग्रणी है।

इन निष्कर्षों से संकेत मिलता है कि सीओई। भविष्य में अधिक टिकाऊ एआई अनुप्रयोगों के लिए मार्ग कैसे स्थानांतरित करें, इस पर पुनर्विचार करने का एक तरीका प्रदान करता है कि कैसे बड़े भाषा मॉडल डेल्ट्स कुशल और प्रभावी दोनों हो सकते हैं।

अंत

Chen-F-epperts फ्रेमवर्क एक तंत्रिका नेटवर्क के गठन में मापा गया विकास का प्रतिनिधित्व करता है। विशेषज्ञों के बीच अनुक्रमिक संचार प्रस्तुत करके, सीओई स्वतंत्र टोकन प्रसंस्करण और पारंपरिक एमओई मॉडल के तहत उच्च मेमोरी खपत की सीमाओं पर विचार करता है। तकनीकी नवाचार – विशेष रूप से स्वतंत्र गेटिंग तंत्र और आंतरिक अवशिष्ट कनेक्शन – बड़े भाषा मॉडल को स्केल करने के लिए अधिक कुशल और लचीले दृष्टिकोण को सक्षम करता है।

प्रायोगिक परिणाम, प्रारंभिक के बावजूद, संकेत देते हैं कि सीओई संचालन और संसाधनों का उपयोग मामूली अभी तक सार्थक सुधार प्राप्त कर सकता है। यह दृष्टिकोण आगे के शोध को आमंत्रित करता है, विशेष रूप से कैसे दोहराया संचार को भविष्य के मॉडल आर्किटेक्चर में विस्तारित या शुद्ध किया जा सकता है। जैसा कि इस क्षेत्र में शोध जारी है, सीओई दक्षता और मॉडल प्रदर्शन के बीच संतुलन को प्राप्त करने की दिशा में एक विचारशील कदम के रूप में स्टैंड के संपर्क में है, जो अंततः अधिक सुलभ और टिकाऊ एआई सिस्टम में योगदान कर सकता है।


जाँच करना तकनीकी विवरण और GitHub पृष्ठ। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए


Aswin AK MaviyechPost में एक परामर्श इंटर्न है। उन्हें खड़गपुर में भारतीय प्रौद्योगिकी में दोहरी डिग्री मिल रही है। यह डेटा अभिव्यक्तियों और पंखों और मशीन लर्निंग के बारे में उत्साही है, एक मजबूत शैक्षणिक पृष्ठभूमि और वास्तविक जीवन क्रॉस-डॉमन चुनौतियों को हल करने में अनुभव लाता है।

🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top