अलीबाबा की रानी टीम ने QWQ -32B, एक 32 बिलियन आयाम AI मॉडल का अनावरण किया है, जो एक बहुत बड़ी दीप्सिक -R1 प्रतियोगिता प्रदर्शन को दर्शाता है। यह प्रगति रोबेस्ट फाउंडेशन मॉडल पर सुदृढीकरण सीखने (आरएल) को स्केलिंग करने की संभावना पर प्रकाश डालती है।
क्वीन टीम ने मॉडल डेल में सफलतापूर्वक एजेंट क्षमताओं को एकीकृत किया है, जिससे यह गंभीर रूप से सोचने, उपकरणों का उपयोग करने और पर्यावरणीय प्रतिक्रिया के आधार पर इसके तर्क के अनुकूल होने में सक्षम है।
टीम ने कहा, “आरएल को स्केल करने में पारंपरिक मुद्रण और पोस्ट -ट्राइविंग विधियों से परे मॉडल प्रदर्शन को बढ़ाने की संभावना है।” “हाल के अध्ययनों से पता चला है कि आरएल मॉडल के तर्क में काफी सुधार कर सकता है।”
QWQ -32B DEEPCICK -R1 के साथ तुलनात्मक संचालन प्राप्त करता है, जिसमें 671 बिलियन आयाम (37 बिलियन सक्रिय के साथ) हैं, जबकि आरएल की प्रभावशीलता व्यापक आधार की एक इच्छा है, जबकि व्यापक फाउंडेशन मॉडल व्यापक रूप से दुनिया के जूनो पर प्रशंसा की जाती हैं। यह महत्वपूर्ण परिणाम मॉडल के आकार और प्रदर्शन के बीच की दूरी को दूर करने के लिए आरएल की संभावना को दर्शाता है।
मॉडल का मूल्यांकन AIM 24, LiveKodbench, Live -posses, Efall और BFCL सहित बेंचमार्क की एक श्रृंखला में किया जाता है, जिसे इसके गणितीय तर्क, कोडिंग विशेषज्ञता और सामान्य समस्या को हल करने की क्षमताओं का मूल्यांकन करने के लिए डिज़ाइन किया गया है।
परिणाम अन्य प्रमुख मॉडलों की तुलना में QWQ-32B के परिणामों को जारी करते हैं, जिनमें Dippic-R1-Distilled-32b, Dippic-R1-डिस्टिल्ड-लाला-70B, O 1-Minnie और मूल DEEPSIC-R1 शामिल हैं।
बेंचमार्क परिणाम:
- AIM 24: QWQ-32B.5 79.5 प्राप्त किया, जो कि Dippic-R1-6718 के 79.8 से पीछे है, लेकिन ओपनल-O1-Mini के 63.6 और डिस्टिल्ड मॉडल से काफी आगे है।
- Livekodbanch: QWQ-32B ने 63.4 बनाया, जो कि डीपस्क-आर 1-6718 के 65.9 से निकटता से मिलान किया गया था, और डिस्टिल्ड मॉडल और ओपन-ओ-मिनी के 53.8 को पार किया।
- लाइव बेंच: QWQ-32B DIPPEC-R1-6718 के साथ 71.6 प्राप्त करता है, और डिस्टिल्ड मॉडल और ओपन-ओ-मिनी के 57.5 को आगे बढ़ाता है।
- अगर: QWQ-32B 83.9 ने स्कोर किया, जो कि डीपस्क-आर 1-6718 के 83.3 के बहुत करीब है, और डिस्टिल्ड मॉडल और ओपन-ओ-मिनी के 59.1 का नेतृत्व करता है।
- BFCL: CWQ-32B ने 62.8 हासिल किया, स्कोरिंग Dippic-R1-6718 62.8, डिस्टिल्ड मॉडल और ओपन-O1-Mini के 49.3 पर लीड दिखाया।
क्वीन टीम के दृष्टिकोण में कोल्ड-स्टार चेकपॉइंट और परिणाम आधारित पुरस्कारों द्वारा संचालित एक बहु-चरण आरएल प्रक्रिया शामिल है। गणित और कोडिंग कार्यों के लिए आरएल को स्केल करने पर ध्यान केंद्रित करने वाले एक प्रारंभिक चरण में, सटीकता वेरिफायर और कोड निष्पादन सर्वर का उपयोग। दूसरे चरण में सामान्य क्षमताओं में विस्तार किया गया, जिसमें सामान्य पुरस्कार मॉडल और नियम -आधारित वैरिफायर शामिल हैं।
टीम ने समझाया, “हमें लगता है कि छोटे उपायों के साथ आरएल प्रशिक्षण का यह चरण अन्य सामान्य क्षमताओं के प्रभाव को बढ़ा सकता है, जैसे कि निर्देश, मानव चयन के साथ कॉन्फ़िगरेशन, और एजेंट प्रदर्शन, गणित और कोडिंग में महत्वपूर्ण प्रदर्शन ड्रॉप के बिना।”
CWQ -32B खुला वजन है और Apache 2.0 लाइसेंस के तहत कशीदाकारी चेहरे और मॉडलोकोप पर उपलब्ध है, और क्वान चैट द्वारा भी सुलभ है। क्वीन टीम आरएल को तर्क क्षमता को बढ़ाने के लिए स्केलिंग के शुरुआती कदम के रूप में देखती है और इसका उद्देश्य लंबी श्रेणी के तर्क के लिए आरएल के साथ एजेंटों के एकीकरण का पता लगाना है।
“जब हम रानी की आगामी वेतन पीढ़ी को विकसित करने की दिशा में काम करते हैं, तो हमें विश्वास है कि हम स्केल्ड कम्प्यूटेशनल संसाधनों द्वारा आरएल -पॉवर आरएल के साथ मजबूत फाउंडेशन मॉडल को जोड़कर आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) को प्राप्त करने के करीब पहुंचेंगे।”
यह भी देखें: डिपग्राम नोवा -3 मेडिकल: एआई स्पीच मॉडल डेल हेल्थकेयर कट्स ट्रांसक्रिप्शन गलतियाँ

उद्योग के नेताओं से एआई और बड़े डेटा के बारे में अधिक जानना चाहते हैं? एम्स्टर्डम, कैलिफोर्निया और लंदन में आयोजित एआई और बिग डेटा एक्सपो की जाँच करें। ब्रॉड इवेंट को इंटेलिजेंट ऑटो टोमेशन कॉन्फ्रेंस, ब्लॉकएक्स, डिजिटल ट्रांसफॉर्मेशन वीक और साइबर सिक्योरिटी एंड क्लाउड एक्सपो सहित अन्य प्रमुख घटनाओं के साथ सह-स्थित किया गया है।
TechFire द्वारा संचालित अन्य आगामी उद्यम प्रौद्योगिकी घटनाओं और वेबिनार का अन्वेषण करें।