LLMS के लिए टेस्ट-टाइम गणना इष्टतम ptimize: एकीकृत अधिकार में कमी के साथ मेटा-रिनफोर्समेंट लर्निंग दृष्टिकोण

परीक्षण-समय गणना को ptiming द्वारा LLM की तर्क क्षमता बढ़ाना एक महत्वपूर्ण अनुसंधान चुनौती है। वर्तमान दृष्टिकोण मुख्य रूप से बाइनरी परिणाम पुरस्कारों का उपयोग करके खोज ट्रेस या आरएल के साथ ठीक-ट्यूनिंग मॉडल पर निर्भर करते हैं। हालांकि, ये विधियाँ परीक्षण-समय की गणना को प्रभावी ढंग से अवशोषित नहीं कर सकती हैं। हाल के शोध से पता चलता है कि परीक्षण-समय कंप्यूटिंग बढ़ने से लंबे समय तक समाधान ट्रेस का उत्पादन करके और प्रतिबिंब, योजना और एल्गोरिथम खोज जैसे संरचनात्मक उपायों को शामिल करके तर्क में सुधार हो सकता है। मुख्य चुनौतियां लंबित हैं कि क्या LLMS कार्य जटिलता के आधार पर कम्प्यूटेशनल संसाधनों को प्रभावी ढंग से आवंटित करता है और बड़े परीक्षण-समय की गिनती को बजट दिए जाने पर अधिक कठिन समस्याओं के समाधान पाता है। एलएलएम लॉजिक में दक्षता और सामान्यीकरण में सुधार करने के लिए इसे संबोधित करना महत्वपूर्ण है।

स्केलिंग टेस्ट-टाइम कंप्यूट में नवीनतम प्रगति ने चयन आधारित तरीकों जैसे कि सर्वश्रेष्ठ-एफ-एन या बीम खोज के लिए एक अलग सत्यापनकर्ता का आविष्कार किया है, जो कभी-कभी डेटा या मॉडल के आकार से अधिक प्रभावी हो सकता है। हालांकि, अज्ञात खोज चिह्नों पर ठीक ट्यूनिंग वास्तविक तर्क सुधार के बजाय स्मृति में परिणाम कर सकता है। आरएल-आधारित दृष्टिकोणों ने चेन-थिंकिंग बनाने, मॉडल को आत्मनिरीक्षण में सुधार करने, योजना बनाने और उनके आउटपुट में सुधार करने के लिए सक्षम करने का वादा किया है। हालांकि, बढ़ते तर्क की लंबाई हमेशा उच्च सटीकता से संबंधित नहीं होती है, क्योंकि मॉडल सार्थक प्रगति के बिना अनावश्यक रूप से लंबे अनुक्रमों का उत्पादन कर सकते हैं। इसे रोकने के लिए, हाल के प्रयासों में कुशल तर्क को बढ़ावा देने के लिए संरचित पुरस्कार विधियाँ और लंबाई दंड शामिल हैं, यह सुनिश्चित करते हुए कि मॉडल अत्यधिक गणना के बजाय जानकारीपूर्ण, संक्षिप्त समाधानों के उत्पादन पर ध्यान केंद्रित करते हैं।

कार्नेगी मेलन विश्वविद्यालय के शोधकर्ताओं और कशीदाकारी चेहरे की जांच के दौरान कम्प्यूटेशनल संसाधनों को आवंटित किया गया है कि कैसे ऑप्टिमाइज्ड ऑप्टिमेंट द्वारा एलएलएम के लिए परीक्षण-समय की गणना। परिणाम-परस्कर आरएल पर पूरी तरह से निर्भर होने के बजाय, वे एक अच्छा ट्यूनिंग दृष्टिकोण प्रस्तुत करते हैं जो अनुसंधान और अवशोषण को संतुलित करता है, सही उत्तरों की ओर निरंतर प्रगति सुनिश्चित करता है। उनकी विधि में प्रगति के अनुपात को निर्धारित करने के लिए GA ENSE इनाम बोनस शामिल है, दक्षता में सुधार करना। गणितीय बेंचमार्क पर मूल्यांकन से पता चलता है कि यह दृष्टिकोण वर्तमान तरीकों की ओर ले जाता है, सटीकता और टोकन दक्षता दोनों को बढ़ाता है। उनके निष्कर्षों से यह भी संकेत मिलता है कि प्रगति के लिए izing ptimizing सटीकता का त्याग किए बिना समाधान खोज में सुधार करते समय गणना के अफसोस को कम करता है।

टेस्ट-टाइम कंप्यूट को ptimizing izing की समस्या मेटा सुदृढीकरण सीखने (मेटा आरएल) चुनौती के रूप में बनाई गई है। लक्ष्य अनुसंधान और अवशोषण को समायोजित करके एक परीक्षण-समय टोकन बजट में एलएलएम के प्रदर्शन को अधिकतम करना है। परिणामों के लिए केवल इष्टतम को कम करने के बजाय, प्रस्तावित मेटा सुदृढीकरण फाइन-ट्यूनिंग (एमआरटी) दृष्टिकोण अनुक्रमिक एपिसोड में लाभकारी प्रगति द्वारा संचित खेद को कम करता है। यह बजट-अज्ञेय की रणनीति एलएलएम को प्रशिक्षण बाधाओं की परवाह किए बिना स्थिर प्रगति करने की अनुमति देती है। अतिरिक्त उन्नयन के आधार पर पुरस्कार बोनस को शामिल करके, एमआरटी परिनियोजन सीमा में अनुकूलनशीलता और प्रतिक्रिया सटीकता को बढ़ाने, कुशल परीक्षण-समय गणना की खपत सुनिश्चित करता है।

यह अध्ययन गणना की दक्षता को बनाए रखते हुए उच्च सटीकता को प्राप्त करने पर ध्यान केंद्रित करते हुए, परीक्षण-समय गणना को पीटमाइज़ करने में एमआरटी की प्रभावशीलता का मूल्यांकन करता है। यह अध्ययन मुख्य निष्कर्षों का प्रतिनिधित्व करता है, एमआरटी दक्षता के पिछले तरीकों के साथ तुलना करता है, और टोकन बजट और प्रगति पर एम्बुलिंग प्रयोग करता है। MRT लगातार बेसलाइन मॉडल और परिणाम-शुद्ध RL (GRPO) से बेहतर प्रदर्शन करता है, इसके आकार की श्रेणी में उन्नत परिणाम प्राप्त करता है। यह वितरण की ताकत में भी सुधार करता है और कमजोर मॉडल के साथ बड़े प्रदर्शन को लाभ देता है। इसके अलावा, एमआरटी टोकन दक्षता में काफी वृद्धि करता है, तुलनात्मक सटीकता के लिए कम टोकन की आवश्यकता होती है। अतिरिक्त प्रयोगों ने खोज और रैखिक मूल्यांकन में इसकी प्रभावशीलता को उजागर किया।

अंत में, अध्ययन एक प्रमुख मीट्रिक के रूप में संचित पछतावा का प्रतिनिधित्व करता है, एक मेटा-रिनफोर्समेंट लर्निंग (आरएल) समस्या के रूप में परीक्षण-समय गणना को पीटी करने के लिए। अत्याधुनिक परिणाम-purscar आरएल मॉडल अफसोस को कम करने में विफल रहते हैं, अक्सर टोकन बजट में उपन्यास के सवालों के साथ संघर्ष करते हैं। यह सीमा केवल परिणामों के साथ प्रशिक्षण से उत्पन्न होती है, जिसमें कदम की प्रगति का मार्गदर्शन करने के लिए दानेदारता का अभाव है। इस पर विचार करने के लिए, MRT प्रस्तावित है, जिसमें GA ENSE रिवार्ड बोनस शामिल है जो अतिरिक्त सुधार को बढ़ावा देता है। एमआरटी परीक्षण-समय की गणना परिणाम-प्योर आरएल की तुलना में गणितीय तर्क में दक्षता, 2-3x बेहतर प्रदर्शन और 1.5x अधिक टोकन दक्षता बढ़ाती है, हालांकि कई खुले प्रश्न लंबित हैं।


जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड


मार्कटेकपोस्ट और आईआईटी मद्रास में एक परामर्श इंटर्न सना हसन, वास्तविक दुनिया की चुनौतियों को दूर करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में उत्साहित हैं। व्यावहारिक समस्याओं को हल करने में अधिक रुचि के साथ, यह एआई और वास्तविक जीवन समाधानों के चौराहे के लिए एक नया परिप्रेक्ष्य लाता है।

पार्लेंट: LLMS (B ED) के साथ एक विश्वसनीय AI ग्राहक का सामना करना

Scroll to Top