मिलिए रिसर्च: एक उपन्यास एआई फ्रेमवर्क जो लॉजिक स्टेप्स पर किसी भी देखे गए डेटा का उपयोग किए बिना सुदृढीकरण शिक्षा के माध्यम से एक खोज के साथ एलएलएम को प्रशिक्षित करता है

बड़ी भाषा मॉडल डेलो (एलएलएमएस) ने विभिन्न कार्यों में महत्वपूर्ण प्रगति दिखाई है, विशेष रूप से तर्क क्षमताओं में। हालांकि, बाहरी पहचान संचालन के साथ तर्क प्रक्रियाओं को प्रभावी ढंग से एकीकृत करना चुनौतीपूर्ण है, विशेष रूप से मल्टी-हॉप प्रश्नों के लिए जटिल तर्क श्रृंखलाओं और कई वसूली उपायों की आवश्यकता होती है। वर्तमान तरीके मुख्य रूप से मैन्युअल रूप से डिज़ाइन किए गए संकेतों या हेरस्टिक्स, माप और लचीलेपन में सीमा पर आधारित हैं। इसके अलावा, मल्टी-स्टेप लॉजिक व्यू के लिए देखे गए डेटा का उत्पादन अक्सर महंगा और व्यावहारिक रूप से अनुचित होता है।

बाचुआन इंक, टोंगजी विश्वविद्यालय, एडिनबर्ग विश्वविद्यालय के शोधकर्ताओं और ज़ेजियांग विश्वविद्यालय अनुसंधान, एक उपन्यास एआई फ्रेमवर्क, जो कि सुदृढीकरण सीखने द्वारा खोज के साथ तर्क को एकीकृत करने के लिए एलएलएम को प्रशिक्षित करने के लिए डिज़ाइन किया गया है, विशेष रूप से तर्क उपायों का अवलोकन किए बिना। अनुसंधान की मुख्य विधि खोज ऑपरेशन को सीधे तर्क श्रृंखला में शामिल करती है। समूह रिश्तेदार नीति ऑप्टिमाइज़ेशन (जीआरपीओ), एक सुदृढीकरण सीखने की तकनीक, अनुसंधान गाइड गाइड एलएलएमएस एलएलएम को स्वायत्त रूप से खोज राशन को शुद्ध करने के सर्वोत्तम क्षणों और रणनीतियों की पहचान करने के लिए, जो बाद में चल रहे तर्क को प्रभावित करता है। यह दृष्टिकोण मॉडल को उनके तर्क में सुधार करने में सक्षम बनाता है और स्वाभाविक रूप से उन्नत क्षमताओं जैसे प्रतिबिंब और आत्म-सुधार की सुविधा प्रदान करता है।

तकनीकी दृष्टिकोण से, अनुसंधान विशिष्ट TS ghys को एम्बेड करके संरचित आउटपुट प्रारूपों को नियोजित करता है – जैसे , , और – लॉजिक चेन के साथ। इस टीएस में जीएस मॉडल और बाहरी रिकवरी वातावरण के बीच एक स्पष्ट संचार है, जो एक व्यवस्थित रूप से उत्पन्न आउटपुट का आयोजन करता है। प्रशिक्षण के दौरान, अनुसंधान जानबूझकर मॉडल पूर्वाग्रह को रोकने के लिए नुकसान की गणना से परिणामों को बाहर करता है। सुदृढीकरण सीखने की प्रक्रिया का मार्गदर्शन करने वाले रिवार्ड सिग्नल प्रत्यक्ष मानदंडों पर आधारित हैं: एफ 1 स्कोर द्वारा सटीकता मूल्यांकन और पूर्वनिर्धारित संरचित आउटपुट प्रारूप के साथ अनुपालन। यह डिजाइन परिष्कृत तर्क पैटर्न के स्वायत्त विकास को बढ़ावा देता है, मैन्युअल रूप से एनॉटेड लॉजिक डेटासेट की आवश्यकता में बाधा डालता है।

व्यावहारिक मूल्यांकन अनुसंधान की ताकत की पुष्टि करता है। जबकि HotPotqa, 2 विकिमलटिहोपका, संगीत और बेम्बुगल का मूल्यांकन मल्टी-हॉप-प्रश्न-पूजा बेंचमार्क पर किया जाता है, अनुसंधान बेसलाइन तरीकों से लगातार आगे है। विशेष रूप से, अनुसंधान-क्वान -32 बी-स्केल स्थापित मूल बातों की तुलना में ऑपरेशन में 8.9% और 22.4% के बीच सुधार प्राप्त करता है। विशेष रूप से, इन प्रगति को इसकी मजबूत सामान्यीकरण क्षमताओं को रेखांकित करने के बावजूद प्राप्त किया गया था, भले ही वे विशेष रूप से एक ही डेटासेट पर प्रशिक्षित थे। आगे के विश्लेषण से पता चलता है कि मॉडल ने प्रशिक्षण के दौरान दोहराव का पता लगाने के संचालन पर धीरे -धीरे अपनी निर्भरता बढ़ाई है, जो उन्नत तर्क की महारत का एक संकेतक है। विस्तृत मामला शिक्षण ने मॉडल की क्षमता को सबप्टिमल खोज क्वेरी की पहचान करने, उनके तर्क कार्रवाई को प्रतिबिंबित करने और स्वायत्त रूप से सुधारात्मक कार्यों को लागू करने की क्षमता का वर्णन किया है।

सारांश में, अनुसंधान सुदृढीकरण शिक्षा के माध्यम से बाहरी पहचान विधियों के साथ एलएलएम को एकीकृत करने के लिए प्रशिक्षण में महत्वपूर्ण प्रणालीगत प्रगति प्रस्तुत करता है। मनाया तर्क डेटा पर निर्भरता को हटाकर, यह संरचना बहु-हॉप लॉजिक के विचारों में महत्वपूर्ण स्केलेबिलिटी और अनुकूलनशीलता के मुद्दों को प्रभावी ढंग से संबोधित करती है। आत्म-प्रतिबिंब और सुधार के लिए इसकी क्षमता जटिल, वास्तविक संदर्भों में इसकी व्यावहारिक उपयोगिता को बढ़ाती है। भविष्य के अनुसंधान दिशाएँ यह सुदृढीकरण शिक्षण-आधारित संरचना का विस्तारित अनुप्रयोगों में विस्तारित कर सकता है और अतिरिक्त बाहरी संसाधनों को जानता है।


जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 85 k+ ml सबमिटेड


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

Scroll to Top