नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें
Google रिसर्च और कैलिफोर्निया विश्वविद्यालय, बर्कले के एक नए पेपर से पता चला है कि आश्चर्यजनक रूप से सरल परीक्षण-समय स्केलिंग दृष्टिकोण बड़े भाषा के मॉडल डेल (एलएलएम) की तर्क क्षमताओं में तेजी ला सकता है। कुंजी? नमूना-आधारित खोज स्केलिंग पर निर्भर करती है, एक तकनीक जो कई उत्तरों का उत्पादन करती है और मॉडल का परीक्षण करने के लिए इसका उपयोग करती है।
मुख्य खोज यह है कि नमूना-आधारित पहचान, यादृच्छिक नमूनों और आत्म-चेतना के न्यूनतम कार्यान्वयन का उपयोग करते हुए, लोकप्रिय बेंचमार्क पर O1-preview के बजाय मिथुन 1.5 प्रो जैसे मॉडल के तर्क को बढ़ा सकते हैं। इन निष्कर्षों में उद्यम आवेदन के लिए महत्वपूर्ण प्रभाव हो सकते हैं और यह इस धारणा को चुनौती दे सकता है कि उच्च-स्तरीय प्रदर्शन को प्राप्त करने के लिए बहुत विशिष्ट प्रशिक्षण या जटिल आर्किटेक्चर हमेशा आवश्यक होते हैं।
वर्तमान परीक्षण-समय को स्केल करने की सीमा
एलएलएमएस में टेस्ट-टाइम स्केलिंग के लिए वर्तमान लोकप्रिय विधि चेन-टीएच एफ-थिंकिंग (सीओटी) अंक के साथ लंबे उत्तरों का उत्पादन करने के लिए सुदृढीकरण सीखकर मॉडल को प्रशिक्षित करना है। इस दृष्टिकोण का उपयोग Openai O1 और DEEPSIK-R1 जैसे मॉडलों में किया जाता है। हालांकि लाभकारी, इन विधियों को आमतौर पर प्रशिक्षण चरण में महत्वपूर्ण निवेश की आवश्यकता होती है।
दूसरा टेस्ट-टाइम स्केलिंग विधि “सेल्फ-सपोर्ट” है, जहां मॉडल क्वेरी के लिए कई उत्तरों का उत्पादन करता है और उत्तर का चयन करता है जो अधिक बार दिखाई देता है। जटिल समस्याओं का प्रबंधन करते समय आत्म-संगतता अपनी सीमा तक पहुंचती है, जैसा कि इन मामलों में, सबसे लगातार उत्तर उचित नहीं है।
नमूना-आधारित खोज टेस्ट-टाइम स्केलिंग के लिए एक सरल और बहुत स्केलेबल विकल्प प्रदान करती है: मॉडल को कई उत्तर देने दें और सत्यापन विधि द्वारा सर्वश्रेष्ठ चुनें। नमूना-आधारित खोजें अन्य परीक्षण-समय कंप्यूटिंग स्केलिंग रणनीतियों को पूरक कर सकती हैं और, शोधकर्ताओं ने अपने पेपर में लिखा है, “यह भी एक शर्मनाक समानांतर होने और मनमाने ढंग से स्केलिंग की अनुमति देने का एक अनूठा लाभ है: बस अधिक उत्तर लें।”
इससे भी महत्वपूर्ण बात, एक नमूना-आधारित खोज किसी भी एलएलएम पर लागू की जा सकती है, जिसमें तर्क स्पष्ट रूप से प्रशिक्षित नहीं है।
एक नमूना-आधारित खोज कैसे काम करता है
शोधकर्ता एक नमूना-आधारित खोज के न्यूनतम कार्यान्वयन पर ध्यान केंद्रित करते हैं, उम्मीदवार के उत्तर का उत्पादन करने और भाषा मॉडल का उपयोग करके उनका परीक्षण करने के लिए। यह एक “आत्म-गुणवत्ता” प्रक्रिया है, जहां मॉडल बाहरी ग्राउंड-सत्य उत्तर या प्रतीकात्मक सत्यापन प्रणालियों के आधार पर अपने स्वयं के आउटपुट का मूल्यांकन करता है।

एल्गोरिथ्म कुछ सरल चरणों में काम करता है:
1 – एल्गोरिथ्म का भाषा मॉडल किसी दिए गए समस्या के उम्मीदवार समाधानों के एक सेट का निर्माण करके शुरू होता है। यह मॉडल अक्सर एक ही संकेत का उपयोग करके और प्रतिक्रियाओं के विभिन्न सेट बनाने के लिए एक गैर-शून्य तापमान सेटिंग का उपयोग करके किया जाता है।
2 – प्रत्येक उम्मीदवार की प्रतिक्रिया एक सत्यापन प्रक्रिया से गुजरती है जिसमें एलएलएम को अक्सर यह निर्धारित करने के लिए कहा जाता है कि क्या प्रतिक्रिया सही है। प्रतिक्रिया के लिए अंतिम सत्यापन स्कोर बनाने के लिए परीक्षण के परिणाम औसत हैं।
3 – एल्गोरिथ्म के अंतिम उत्तर के रूप में उच्चतम स्कोर प्रतिक्रिया चुनता है। यदि कई उम्मीदवार एक दूसरे के अंदर हैं, तो एलएलएम को उनकी जोड़ी की तुलना करने और सर्वश्रेष्ठ चुनने के लिए कहा जाता है। उच्चतम जोड़ी जीतने वाली प्रतिक्रिया को अंतिम उत्तर के रूप में चुना जाता है।
शोधकर्ता परीक्षण-समय स्केलिंग के लिए दो प्रमुख कुल्हाड़ियों पर विचार करते हैं:
नमूने: प्रत्येक इनपुट समस्या के लिए एक मॉडल का उत्पादन करने वाली प्रतिक्रियाओं की संख्या।
सत्यापन: प्रत्येक उत्पन्न समाधान के लिए गिनती स्कोर की संख्या
एक नमूना-आधारित खोज अन्य तकनीकों के साथ कैसे तुलना करती है
इस अध्ययन से पता चलता है कि एक नमूना-आधारित खोज के साथ तर्क प्रदर्शनियों में सुधार किया जाता है, जब परीक्षण-समय की गणना बहुत ही बढ़ जाती है जहां से आत्म-संगतता संतृप्त होती है।
पर्याप्त, यह न्यूनतम कार्यान्वयन बेंचमार्क पर तर्क की सटीकता को काफी तेज करता है, जैसे कि एईएम और गणित। उदाहरण के लिए, मिथुन 1.5 प्रो का प्रदर्शन ओ 1-अल्फाबेट को पार करता है, जो स्पष्ट रूप से तर्क समस्याओं पर प्रशिक्षित है, और मिथुन 1.5 फ्लैश ने मिथुन 1.5 प्रो को पार कर लिया है।

शोधकर्ता लिखते हैं, “यह स्केलिंग क्षमता के लिए नमूना-आधारित खोज के महत्व पर प्रकाश डालता है, लेकिन एक साधारण आधार रेखा के रूप में एक नमूना-आधारित खोज की उपयोगिता को इंगित करता है, जिस पर स्केलिंग रणनीति की तुलना करने और मॉडल की खोज क्षमताओं में मूल सुधार को मापने के लिए अन्य परीक्षण-समय की गणना।” शोधकर्ताओं ने लिखा।
यह ध्यान देने योग्य है कि जब खोज -आधारित नमूने के परिणाम प्रभावशाली होते हैं, तो लागत भी प्रतिबंधित हो सकती है। उदाहरण के लिए, प्रति नमूना 200 नमूनों और 50 सत्यापन चरणों के साथ, Aime क्वेरी लगभग 130 मिलियन टोकन का उत्पादन करेगा, जिसकी कीमत 50 650 है, जो कि GENINI 1.5 प्रो के साथ है। हालांकि, यह एक नमूना-आधारित खोज के लिए एक बहुत ही सरल दृष्टिकोण है, और अन्य अध्ययनों में प्रस्तावित इष्टतम ptimization तकनीकों के साथ संगत है। स्मार्ट नमूनों और सत्यापन विधियों के साथ, छोटे मॉडल का उपयोग करके और कम टोकन का उत्पादन करके अनुमान लागत को काफी कम किया जा सकता है। उदाहरण के लिए, सत्यापन के लिए मिथुन 1.5 फ्लैश का उपयोग करते हुए, प्रति प्रश्न लागत $ 12 हो जाती है।
प्रभावी आत्म-गुणवत्ता की रणनीति
एक निरंतर बहस है कि क्या LLMS अपने स्वयं के उत्तरों को सत्यापित कर सकता है। शोधकर्ता परीक्षण-समय की गणना का उपयोग करके आत्म-गुणवत्ता में सुधार करने के लिए दो मुख्य रणनीतियों की पहचान करते हैं:
सीधे प्रतिक्रिया उम्मीदवारों की तुलना करें: उम्मीदवार समाधानों के बीच असहमति संभावित त्रुटियों को दृढ़ता से इंगित करती है। तुलना करने के लिए कई उत्तरों के साथ एक सत्यापनकर्ता प्रदान करके, मॉडल एलएलएम की मुख्य कमजोरी को संबोधित करते हुए, त्रुटियों और अवसाद की बेहतर पहचान कर सकता है। शोधकर्ताओं ने इसे “निहित स्केलिंग” के उदाहरण के रूप में वर्णित किया।
कार्य-विशिष्ट पुन: पाठ: शोधकर्ताओं ने प्रस्तावित किया कि एलएलएम की सबसे अच्छी आउटपुट शैली फ़ंक्शन पर निर्भर करती है। चेन-ऑफ-थिंकिंग तर्क कार्यों को हल करने में प्रभावी है, लेकिन जब अधिक औपचारिक अग्रणी है, तो गणितीय रूप से एक पारंपरिक शैली में लिखा जाता है, उत्तरों का परीक्षण करना आसान होता है। वेरिफायर मूल्यांकन से पहले एक और संरचित प्रारूप (जैसे, प्रमेय-लोमा-प्रूफ) में उम्मीदवार के उत्तरों को फिर से लिख सकते हैं।
शोधकर्ता लिखते हैं, “हम उम्मीद करते हैं कि मॉडल स्व-श्रदता क्षमताओं को अल्पावधि में सुधारने के लिए, क्योंकि मॉडल निहित स्केलिंग और आउटपुट शैली के सिद्धांतों का लाभ उठाना सीखते हैं, और नमूना-आधारित खोज के लिए एक स्केलिंग दर चलाते हैं,” शोधकर्ता लिखते हैं।
वास्तविक दुनिया के अनुप्रयोगों के लिए सुधार
अध्ययनों से पता चलता है कि अपेक्षाकृत सरल तकनीक प्रभावशाली परिणाम प्राप्त कर सकती है, संभवतः जटिल और महंगी मॉडल आर्किटेक्चर या प्रशिक्षण शासन की आवश्यकता को कम कर सकती है।
यह एक स्केलेबल तकनीक भी है, जो उद्यमों को नमूनों और सत्यापन में अधिक गणना आवंटित करके ऑपरेशन को बढ़ाने में सक्षम बनाता है। यह डेवलपर्स को डेवलपर्स को फ्रंटियर लैंग्वेज मॉडल डेलर्स को जटिल कार्यों पर उनकी सीमा से परे धकेलने के लिए मजबूर करने में सक्षम बनाता है।
“यह दिया जाता है कि यह अन्य परीक्षण-समय गणना स्केलिंग रणनीतियों को पूरा करता है, समानांतर और मनमानी स्केलिंग की अनुमति देता है, और सरल कार्यान्वयन को स्वीकार करता है जो प्रदर्शनकारी प्रभावी है, हम उम्मीद करते हैं कि नमूना-आधारित खोज अधिक जटिल समस्याओं के साथ अधिक जटिल लोगों के कारण एक महत्वपूर्ण भूमिका निभाती है।”
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
