हाल के वर्षों में, बड़े -लैंगुएज मॉडल डेलो (एलएलएमएस) के तेजी से स्केलिंग ने प्राकृतिक भाषा और तर्क की समझ में एक असाधारण सुधार किया है। हालांकि, यह प्रगति एक महत्वपूर्ण चेतावनी के साथ आती है: अनुमान प्रक्रिया – एक समय में एक टोकन का उत्पादन करती है – एक गणना बाधा को पुन: पेश करता है। जैसे -जैसे एलएलएम आकार और जटिलता में बढ़ता है, क्रमिक टोकन पीढ़ी के लिए देरी और ऊर्जा की मांग महत्वपूर्ण है। ये चुनौतियां वास्तविक दुनिया की तैनाती में विशेष रूप से तीव्र हैं, जहां लागत, गति और स्केलेबिलिटी महत्वपूर्ण हैं। पारंपरिक डिकोडिंग दृष्टिकोण, जैसे कि लालच या बीम खोज विधियाँ, अक्सर बड़े मॉडल के लगातार मूल्यांकन की आवश्यकता होती है, जिससे उच्च गणना ओवरहेड होती है। इसके अलावा, यहां तक कि समानांतर डिकोडिंग तकनीकों के साथ, यह उत्पादन की दक्षता और गुणवत्ता दोनों को बनाए रखने के लिए मायावी हो सकता है। यह परिदृश्य उपन्यास तकनीकों की खोज को उत्तेजित करता है जो सटीकता का त्याग किए बिना अनुमान लागत को कम कर सकता है। इसलिए, शोधकर्ता हाइब्रिड दृष्टिकोणों की तलाश कर रहे हैं जो अधिक शक्तिशाली समकक्षों के साथ हल्के मॉडल को जोड़ते हैं, गति और प्रदर्शन-एक संतुलन के बीच सबसे अच्छा संतुलन के लिए प्रयास करते हैं जो वास्तविक समय के अनुप्रयोग, इंटरैक्टिव सिस्टम और क्लाउड वातावरण में बड़े पैमाने पर तैनाती के लिए आवश्यक है।
Salesforce AI अनुसंधान उपन्यास संरचना का परिचय देता है, बड़ी भाषा के मॉडल डेलो (LLMS) में अनुमानों की दक्षता में सुधार करने के उद्देश्य से सट्टा सट्टा डिकोडिंग (RSD) को पुरस्कृत करता है। अपनी जड़ में, RSD दोहरे-मॉडल रणनीति लाभ प्रदान करता है: तेज, हल्के “ड्राफ्ट” मॉडल एक मजबूत “लक्ष्य” मॉडल के साथ मिलकर काम करता है। ड्राफ्ट मॉडल शुरुआती उम्मीदवार के लिए जल्दी से आउटपुट का उत्पादन करता है, जबकि प्रक्रिया पुरस्कार मॉडल (पीआरएम) वास्तविक समय में इस आउटपुट की गुणवत्ता का मूल्यांकन करता है। पारंपरिक सट्टा डिकोडिंग के विपरीत, जो ड्राफ्ट और लक्ष्य मॉडल के बीच सख्त पक्षपाती टोकन मिलान पर जोर देता है, आरएसडी नियंत्रित पूर्वाग्रह प्रस्तुत करता है। यह पूर्वाग्रह एक उच्च-पर्सलाइड आउटपुट का सावधानीपूर्वक पक्ष लेने के लिए एक इंजीनियर है-जो माना जाता है कि उचित या संदर्भ प्रासंगिक-महत्वपूर्ण रूप से अनावश्यक गणना को कम करता है। यह दृष्टिकोण गणितीय रूप से व्युत्पन्न सीमा रणनीतियों पर आधारित है जो यह निर्धारित करते हैं कि लक्ष्य मॉडल को कब हस्तक्षेप किया जाना चाहिए। पुरस्कार फ़ंक्शन के आधार पर दोनों मॉडलों से गतिशील रूप से आउटपुट को मिलाकर, RSD न केवल अनुमान प्रक्रिया को तेज करता है, बल्कि उत्पन्न उत्तर की समग्र गुणवत्ता को भी बढ़ाता है। संलग्न कागज में विस्तार से, यह प्रगति विधि एलएलएमएस में क्रमिक टोकन पीढ़ी के तहत अशुद्धियों को संबोधित करने में महत्वपूर्ण छलांग प्रस्तुत करती है।
तकनीकी विवरण और आरएसडी के फायदे
तकनीकी पहलुओं के मद्देनजर, आरएसडी क्रमिक अभी तक सहकारी तरीके से दो मॉडलों को एकीकृत करके काम करता है। प्रारंभ में, ड्राफ्ट मॉडल कम गणना लागत पर एक उम्मीदवार टोकन या तर्क उपायों का उत्पादन करता है। प्रत्येक उम्मीदवार का मूल्यांकन एक फ़ंक्शन का उपयोग करके किया जाता है, जो एक गुणवत्ता वाले दरवाजे के रूप में कार्य करता है। यदि उम्मीदवार टोकन का इनाम पूर्व निर्धारित सीमा से अधिक है, तो आउटपुट स्वीकार किया जाता है; यदि नहीं, तो सिस्टम एक शुद्ध टोकन बनाने के लिए आगे की गणना के गहन लक्ष्य मॉडल को बताता है। यह प्रक्रिया वजन फ़ंक्शन द्वारा निर्देशित है – विशेष रूप से बाइनरी स्टेप फ़ंक्शन – जो लक्ष्य मॉडल के खिलाफ मसौदे पर निर्भरता को समायोजित करता है। प्रोसेस प्राइज मॉडल (पीआरएम) द्वारा वहन किया गया डायनामिक क्वालिटी कंट्रोल यह सुनिश्चित करता है कि गणना पर बचत करते हुए, केवल सबसे होनहार आउटपुट लक्ष्य मॉडल को बायपास करता है। इस दृष्टिकोण के मुख्य लाभों में से एक “पक्षपाती त्वरण” है, जहां नियंत्रित पूर्वाग्रह हानिकारक नहीं है, लेकिन उच्च सौर परिणामों को पसंद करने के लिए एक रणनीतिक विकल्प है। यह दो मुख्य लाभों में परिणाम है: सबसे पहले, समग्र पूर्वानुमान प्रक्रिया अकेले लक्ष्य मॉडल को चलाने की तुलना में 4.4 × तक हो सकती है; दूसरा, यह अक्सर पारंपरिक समानांतर डिकोडिंग बेसलाइन पर +3.5 की औसत सटीकता में सुधार करता है। संक्षेप में, RSD सटीकता-फ़्लोटिंग-पॉइंट संचालन के साथ दक्षता को सिंक्रनाइज़ करता है, जबकि लक्ष्य मॉडल के प्रभाव को पूरा करते हुए या आउटपुट को पूरा करने के लिए पेरिएशन (FLOPS) की संख्या में महत्वपूर्ण कमी की अनुमति देता है। सैद्धांतिक अंडरपिनिंग्स और एल्गोरिथम विवरण, जैसे कि पीआरएसडी द्वारा परिभाषित मिश्रण, विभिन्न तर्क, वितरण और अनुकूली स्वीकृति मानदंडों में व्यावहारिक तैनाती के लिए एक मजबूत संरचना प्रदान करते हैं।
कमी
आरएसडी का अनुभवजन्य विश्वास आकर्षक है। पेपर में विस्तृत प्रयोग बताते हैं कि, GSM8K, MATH 500, OLYMPIADBANCH और GPQA जैसे चुनौतीपूर्ण बेंचमार्क पर, RSD लगातार सर्वश्रेष्ठ प्रदर्शन प्रदान करता है। उदाहरण के लिए, गणित 500 बेंचमार्क पर – गणितीय तर्क का परीक्षण करने के लिए डिज़ाइन किया गया एक डेटासेट – RSDA ने 88.0 की सटीकता प्राप्त की, जब अकेले लक्ष्य मॉडल के लिए 85.6 की तुलना में 72B लक्ष्य मॉडल और 7B PRM के साथ कॉन्फ़िगर किया गया। यह कॉन्फ़िगरेशन गणना के लोड को केवल 4.4 × कम फ्लॉप द्वारा कम करता है, लेकिन यह तर्क की सटीकता को भी बढ़ाता है। परिणाम पारंपरिक आरएसडी, जैसे सट्टा डिकोडिंग (एसडी) और बीम खोज या सर्वश्रेष्ठ-एफ-एन-एन रणनीति जैसी उन्नत खोज-आधारित तकनीकों को आगे बढ़ाने की संभावना को दर्शाते हैं।

निष्कर्ष: कुशल एलएलएम अनुमान के लिए एक नया उदाहरण
अंत में, इनाम-निर्देशित सट्टा डिकोडिंग (आरएसडी) अधिक कुशल एलएलएम अनुमानों की खोज में एक महत्वपूर्ण लक्ष्य दिखाता है। आरएसडी प्रभावी रूप से गिनती लागत और आउटपुट गुणवत्ता की दोहरी चुनौतियों को संबोधित करता है, हल्के ड्राफ्ट मॉडल को शक्तिशाली लक्ष्य मॉडल से जोड़कर, और पुरस्कार आधारित स्वीकृति मानदंडों को पेश करके। पक्षपाती त्वरक का अभिनव दृष्टिकोण सिस्टम को उच्च-सौर आउटपुट के लिए महंगी गणना का चयन करने की अनुमति देता है, वहां, अनुमान प्रक्रिया को ट्रिमिंग करता है। डायनेमिक क्वालिटी कंट्रोल मैकेनिज्म – प्रोसेस इनाम मॉडल से घिरा हुआ है – एनेस्थेटिक या कम्प्यूटेशनल रिसोर्स को सही तरीके से आवंटित किया जाता है, जिसमें केवल जरूरत पड़ने पर लक्ष्य मॉडल को शामिल किया जाता है। आरएसडी न केवल अधिक स्केलेबल एलएलएम परिनियोजन के लिए मार्ग प्रशस्त करता है, बल्कि अनुभवजन्य परिणामों के साथ हाइब्रिड डिकोडिंग फ्रेमवर्क के डिजाइन में एक नया मानक भी निर्धारित करता है, जो पारंपरिक तरीकों की तुलना में 4.4 × तेज अनुमानों और +3.5 की औसत सटीकता में सुधार दिखाता है।
जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 k+ ml सबमिटेड।
। अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो जटिल वार्तालाप एआई सिस्टम का मूल्यांकन करता है” (बिस्तर)

ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।
✅ (अनुशंसित) हमारे टेलीग्राम चैनल में शामिल हों