AMD Installa प्रकाशित करता है: पूर्ण खुले स्रोत परिष्कृत 3B आयाम भाषा मॉडल की एक श्रृंखला

आज के तेजी से बढ़े हुए डिजिटल परिदृश्य में, सुलभ, कुशल भाषा मॉडल की आवश्यकता तेजी से स्पष्ट हो रही है। पारंपरिक बड़े -स्केल मॉडल में उन्नत प्राकृतिक भाषा और भुगतान की एक महत्वपूर्ण समझ है, हालांकि वे अक्सर कई शोधकर्ताओं और छोटे संगठनों की पहुंच से बाहर होते हैं। उच्च प्रशिक्षण लागत, स्वामित्व प्रतिबंध और पारदर्शिता का अभाव नवाचार में बाधा डाल सकता है और संबंधित समाधानों के विकास को सीमित कर सकता है। सेक्सबिलिटी के मॉडल के साथ मॉडल संतुलन के लिए बढ़ती मांग के साथ, ऐसे विकल्पों के लिए स्पष्ट कॉल हैं जो अत्याधुनिक प्रौद्योगिकी से जुड़ी विशिष्ट बाधाओं के बिना शैक्षिक और औद्योगिक शिथिलता वाले समुदायों दोनों की सेवा करते हैं।

एएमडी इंस्टा का परिचय

एएमडी ने हाल ही में इंस्टा, पूर्ण ओपन सोर्स लैंग्वेज मॉडल का एक परिवार पेश किया है जिसमें 3 बिलियन आयाम हैं। केवल एक पाठ-मॉडल के रूप में डिज़ाइन किया गया, ये उपकरण भीड़ भरे क्षेत्र में एक संतुलित विकल्प प्रदान करते हैं, जहां प्रत्येक एप्लिकेशन को बड़े सिस्टम की जटिलता की आवश्यकता नहीं होती है। इंस्टा को खुले तौर पर खोलकर, एएमडी शैक्षिक अनुसंधान से लेकर व्यावहारिक, रोजमर्रा के समाधानों तक विभिन्न कार्यक्रमों के लिए अध्ययन, शुद्ध करने और अनुकूलन करने का सामुदायिक अवसर प्रदान करता है। यह पहल उन लोगों के लिए एक रिसेप्शन है जो पारदर्शिता और सहयोग, उन्नत प्राकृतिक भाषा प्रसंस्करण टेक्नोल्स को महत्व देते हैं।

तकनीकी वास्तुकला और उसके फायदे

इंस्टा का मूल एक अयस्क टोरेंटिव ट्रांसफार्मर मॉडल है जिसे 36 डिकोडर लेयर्स और 32 मेडिटेशन हेड के साथ डिज़ाइन किया गया है। यह डिज़ाइन लंबे अनुक्रमों की प्रक्रिया का समर्थन करता है – 4,096 टोकन – जो मॉडल को व्यापक पाठीय संदर्भों और विभिन्न भाषाई पैटर्न का प्रबंधन करने में सक्षम बनाता है। लगभग, 000,5 टोकन की शब्दावली के साथ, ओल्मो टोकनर द्वारा संचालित, स्थापित विभिन्न डोमेन में पाठ की व्याख्या और उत्पादन के लिए उपयुक्त है।

इंस्टा की पीठ पर प्रशिक्षण प्रक्रिया समान रूप से सार्थक है। एएमडी के हार्डवेयर और एस। सॉफ्टवेयर फैटवेयर नवाचारों के बीच सिंक्रनाइज़ेशन पर जोर देते हुए, मॉडल को एएमडी इंस्टिंक्ट एमआई 300 एक्स जीपीयू का उपयोग करके प्रशिक्षित किया गया था। बहु-चरण प्रशिक्षण दृष्टिकोण को कई भागों में विभाजित किया गया है:

नमूनानाटकप्रशिक्षण आंकड़ा (टोकन)विवरण
इंस्टा -3 बी -स्टेज 1पूर्व-तालिम (चरण 1)4.065 ट्रिलियनएक प्राकृतिक भाषा में विशेषज्ञता विकसित करने के लिए पहला चरण पूर्व-संबंधित है।
कॉन्फ़िगरेशन -3 बीपूर्व-तालिम (चरण 2)57.575 बिलियनसमस्या को हल करने की क्षमता को और बढ़ाने के लिए दूसरे चरण में पूर्व-निर्भरता।
स्टेला -3 बी-स्फीविस्फोट8.902 बिलियन (X3 ERA)निर्देश-संचालित क्षमताओं को सक्षम करने के लिए प्रेरित ठीक-ट्यूनिंग (SFT)।
उकसावाडीपीओ760 मिलियनमानव विकल्पों के लिए कॉन्फ़िगरेशन के साथ चैट क्षमताओं को मजबूत करें और प्रत्यक्ष चयन ऑप्टिमाइज़ेशन (DPO)।
कुल:4.15 ट्रिलियन

अतिरिक्त प्रशिक्षण इष्टतम ptimization, जैसे कि फ्लैश एटेंशन -2, टार्च संकलन के लिए प्रभाव त्वरण और कुशल ध्यान गणना के लिए संसाधन प्रबंधन, परिचालन है, जैसे कि इष्टतम ptimization, जैसे कि FSDP समानांतर (FSDP)। ये विकल्प यह सुनिश्चित करते हैं कि मॉडल न केवल प्रशिक्षण के दौरान अच्छा प्रदर्शन करता है, बल्कि तैनात होने पर कुशलता से काम करता है।

प्रदर्शन मैट्रिक्स और अंतर्दृष्टि

इंस्टा के प्रदर्शन का कुछ बेंचमार्क के खिलाफ सावधानीपूर्वक मूल्यांकन किया गया है। जब एक ही पैमाने के अन्य ओपन-सन मॉडल के साथ तुलना की जाती है, तो स्थापित किए गए कई मानक परीक्षण 8%के औसत सुधार का संकेत देते हैं। शैक्षणिक समस्या कार्यों को शामिल करती है, शैक्षणिक समस्या को हल करने से लेकर तर्क चुनौतियों तक, इसकी क्षमताओं के बारे में एक विस्तृत दृष्टिकोण प्रदान करती है।

इंस्टिला के इंस्ट्रक्शन-ट्यून संस्करण, जैसे कि फाइन-ट्यूनिंग और बाद में कॉन्फ़िगरेशन प्रक्रियाएं देखी गईं, इंटरैक्टिव कार्यों में ठोस संचालन दिखाते हैं। यह उन्हें उन अनुप्रयोगों के लिए उपयुक्त बनाता है जिनके लिए प्रश्नों की एक ननिंग समझ और एक संतुलित, संदर्भ-जागृत प्रतिक्रिया की आवश्यकता होती है। लालमा -3.2-3 बी, जेम्मा -2-2 बी, और क्वीन -2.5-3 बी जैसे मॉडलों की तुलना में, इंस्टा का अपना है, जो उन लोगों के लिए एक प्रतिस्पर्धी विकल्प साबित होता है जिन्हें एक मजबूत समाधान की आवश्यकता है। इस परियोजना की पारदर्शिता – मॉडल वेट, डेटासेट और ट्रेनिंग हाइपरपरमिटर्स की खुली रिलीज से स्पष्ट है – यह उन लोगों के लिए अपनी अपील बढ़ाता है जो आधुनिक भाषा के मॉडल के आंतरिक प्रदर्शन का पता लगाना चाहते हैं।

अंत

एएमडी के इंस्टा की शुरूआत उन्नत भाषा मॉडलिंग प्रौद्योगिकी के लोकतंत्रीकरण की दिशा में एक विचारशील कदम है। मॉडल का स्पष्ट डिजाइन, एक संतुलित प्रशिक्षण दृष्टिकोण और पारदर्शी विधि आगे के अनुसंधान और विकास के लिए एक मजबूत आधार प्रदान करती है। इसके अयस्क टोरेंटिव ट्रांसफार्मर आर्किटेक्चर और सावधानीपूर्वक क्यूरेट ट्रेनिंग पाइपलाइन के साथ, स्थापित एप्लिकेशन की एक विस्तृत श्रृंखला के लिए एक व्यावहारिक और सुलभ विकल्प के रूप में खड़ा है।


जाँच करना तकनीकी विवरण, Gitthub पेज और मॉडल गले लगाने के चेहरे पर। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एकीकृत करने वाला एक उन्नत प्रणाली


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top