मेटा एआई ने एसडब्ल्यूई-आरएल का परिचय दिया: वास्तविक दुनिया के सॉफ्टवेयर फैटवेयर इंजीनियरिंग के लिए सुदृढीकरण सीखने के लिए एलएलएम तर्क को स्केल करने के लिए एआई दृष्टिकोण

आधुनिक सॉफ्टवेयर फैटवेयर डेवलपमेंट कई चुनौतियों का सामना करता है जो सरल कोड जनरेशन या बग डिटेक्शन से आगे बढ़ते हैं। डेवलपर्स को जटिल कोडबेस का पता लगाना चाहिए, विरासत प्रणालियों का प्रबंधन करना चाहिए और सूक्ष्म समस्याओं पर ध्यान देना चाहिए जो अक्सर मानक स्वचालित उपकरणों से बचेंगे। स्वचालित कार्यक्रम की मरम्मत में पारंपरिक दृष्टिकोणों में शिक्षण तकनीकों या स्वामित्व प्रणालियों पर बहुत समर्थन है जो विभिन्न वास्तविक दुनिया के विचारों में आसानी से सामान्य नहीं हैं। ये तरीके, जब एक नियंत्रित वातावरण में सफल होते हैं, तो दैनिक सॉफ्टवेयर उपजाऊ रिपॉजिटरी में मौजूद अंतर्निहित परिवर्तनशीलता और शोर के साथ संघर्ष करते हैं। उदाहरण के लिए, GITHB जैसे प्लेटफार्मों पर पुल अनुरोध (PRS) में अक्सर गैर-आवश्यक परिवर्तन शामिल होते हैं जैसे कि अपडेटिंग अपडेट या निर्भरता धक्कों, जो अंतर्निहित मुद्दों को अस्पष्ट कर सकते हैं। यह अधिक अनुकूली और संदर्भ-जागरूकता प्रणालियों की बढ़ती आवश्यकता है जो विभिन्न स्नैपशॉट के बजाय सॉफ्टवेयर फैटवेयर परियोजनाओं के पूर्ण विकास से सीख सकते हैं।

मेटा एआई ने SWE-RL की शुरुआत की: वास्तविक दुनिया के सॉफ्टवेयर फैटवेयर इंजीनियरिंग कार्यों के लिए बड़ी भाषा मॉडल (LLM) की तर्क क्षमताओं को बढ़ाने के लिए डिज़ाइन किया गया AI दृष्टिकोण। यह विधि GitHub पुल अनुरोधों, ओपन-सीरस सॉफ्टवेयर फ्यूटवेयर इवोल्यूशन से उपलब्ध समृद्ध और विविध डेटा को लाभान्वित करती है। एक व्यापक डेटासेट को इकट्ठा करके जिसमें विस्तृत समस्या विवरण, पूर्ण फ़ाइल स्नैपशॉट और इसी फिक्स (ओरेकल पैच) शामिल हैं, मॉडल को SWE-RL कोड परिवर्तनों के पूर्ण जीवन चक्र की निगरानी करने में सक्षम बनाता है। यह मॉडल को न केवल मॉडल को कॉपी करने के लिए समझने की अनुमति देता है, बल्कि उनके पीछे के तर्क को समझने के लिए भी। ऐसा करने से, SW-RL विभिन्न प्रशिक्षण पैटर्न से दूर हो जाता है और इसके बजाय सॉफ्टवेयर फैटवेयर विकास पर एक अधिक समग्र दृष्टिकोण अपनाता है, जो व्यवहार में देखी जाने वाली चुनौतियों को दूर करने के लिए महत्वपूर्ण है।

तकनीकी विवरण और लाभ

SWE-RL के कार्यान्वयन में कई सावधानीपूर्वक डिज़ाइन किए गए चरण शामिल हैं। प्रारंभ में, प्रक्रिया GitHB ब्रिज अनुरोधों के संग्रह के साथ शुरू होती है, जैसे कि स्कैल्प और डायरेक्ट रिपॉजिटरी क्लोन जैसे स्रोत। यह विस्तृत डेटासेट तब शोर-तालिम-बॉट-जनित परिवर्तनों और गैर-डेटा-गिविंग परिवर्तनों को हटाने के लिए शुद्ध किया जाता है ताकि तालिम उदाहरणों की गुणवत्ता सुनिश्चित हो सके।

SWE-RL का मुख्य घटक इसका नियम-आधारित पुरस्कार फ़ंक्शन है। एक बाइनरी पास या एक असफल प्रणाली के बजाय, विधि उत्पन्न पैच और अच्छी तरह से ज्ञात अच्छे समाधान के बीच समानता के स्कोर की गणना करने के लिए पायथन के डिफ्लिब.एक्सएक्सएक्समैचर का उपयोग करती है। यह निरंतर इनाम, 0 से 1 तक, आंशिक सफलता और क्रमिक सुधारों को स्वीकार करता है, जिससे इसके प्रभाव पर इसके प्रभाव के लिए एक संवेदनशील प्रतिक्रिया की अनुमति मिलती है। यदि उत्पन्न पैच की संरचना स्थापित मानकों को पूरा नहीं करती है, तो जुर्माना लागू किया जाता है, यह सुनिश्चित करते हुए कि सार्थक शुद्धता और उपयुक्त कोडिंग शैली दोनों बनाए रखी जाती हैं।

सुदृढीकरण शिक्षा समूह से संबंधित नीति ऑप्टिमेंट Ptimization (GRPO) का उपयोग करके काम कर रही है, एक ऐसी तकनीक जो एक ही समस्या के लिए कई जनरेट आउटपुट की तुलना करके मॉडल की भविष्यवाणियों को समायोजित करती है। यह दृष्टिकोण मॉडल को विभिन्न समाधानों का पता लगाने और इसके निर्णय की प्रक्रिया को प्रतिबिंबित करने के लिए प्रोत्साहित करता है। जीआरपीओ के साथ लालमा -3.3–3-70 बी-इंस्ट्रक्शन जैसे एक मजबूत मॉडल पर प्रशिक्षण, मॉडल को अधिक विचारशील और जानबूझकर समस्या को हल करने के लिए मॉडल इंटीरियर में मदद करने के लिए दिखाया गया है। यह न केवल सॉफ्टवेयर जारी करने की मरम्मत पर बल्कि प्राथमिक प्रशिक्षण डोमेन के कामकाज पर भी होता है, जिसमें सामान्य भाषा और गणितीय तर्क की भावना भी शामिल है।

इस पद्धति के लाभ स्पष्ट हैं। वास्तविक दुनिया के डेटा का उपयोग करना और ठीक-ठीक, निरंतर प्रतिक्रिया प्रदान करना, SWE-RL मॉडल को दैनिक सॉफ्टवेयर फैटवेयर इंजीनियरिंग कार्यों की जटिलता को बेहतर ढंग से संभालने के लिए सुसज्जित करता है। दृष्टिकोण नवाचार और कोडिंग मानकों के अनुपालन के बीच संतुलन को बढ़ावा देता है, सिस्टम को कार्यात्मक और अच्छी तरह से किए गए समाधानों का उत्पादन करने में सक्षम बनाता है।

परिणाम और अंतर्दृष्टि

SWE-RL एप्लिकेशन को होनहार परिणाम मिले हैं। परिष्कृत मॉडल, लालमा 3-SWE-RL-70B, SWE-Bench Test-A Humanvical बेंचमार्क पर 41.0% हल की दर को दर्शाता है जिसमें वास्तविक दुनिया के ग्विथब मुद्दे हैं। यह प्रदर्शनी, एक मध्यम -युक्त मॉडल डेल द्वारा प्राप्त की जाती है, प्रतिद्वंद्वियों के प्रति इस दृष्टिकोण की संभावना को दर्शाती है, और कुछ मामलों में, बड़े -स्वेड प्रणालियों की क्षमताओं से मेल खाती है।

विस्तृत स्केलिंग विश्लेषण से पता चलता है कि शुरू में मरम्मत के नमूनों और प्रजनन परीक्षणों की संख्या में वृद्धि से मॉडल के प्रभाव में महत्वपूर्ण सुधार होता है। हालांकि, ये लाभ अंततः प्लेट एयू, निरंतर ऊपर की ओर प्रवृत्ति इस विचार को मजबूत करती है कि अधिक व्यापक नमूने मॉडल को समाधानों की एक विस्तृत श्रृंखला का पता लगाने की अनुमति देते हैं। इसके अलावा, जीआरपीओ का उपयोग प्रशिक्षण प्रक्रिया के दौरान “एएचए क्षणों” के रूप में वर्णित किया जा सकता है। ये क्षण अपनी तर्क रणनीति को समायोजित करने और कोड मरम्मत की जटिलताओं को बेहतर ढंग से प्रबंधित करने के लिए मॉडल की क्षमता को दर्शाते हैं।

एक और महत्वपूर्ण अंतर्दृष्टि डोमेन आउट-ऑफ-डाउमन कार्यों पर मॉडल का बेहतर संचालन है। यद्यपि प्रशिक्षित मुख्य रूप से सॉफ्टवेयर फैटवेयर इश्यू रिज़ॉल्यूशन पर प्रशिक्षित किया जाता है, लालमा 3-सूव-आरएल -70 बी फ़ंक्शन कोडिंग, लाइब्रेरी की खपत और गणितीय तर्क जैसे क्षेत्रों में बढ़ी हुई क्षमता दिखाता है। यह सामान्यीकरण एक महत्वपूर्ण कदम है, जो दिखाता है कि सॉफ्टवेयर एफटीवेयर डेटा पर लागू सुदृढीकरण शिक्षा व्यापक तर्क कौशल को बढ़ावा दे सकती है जो मूल प्रशिक्षण दायरे से आगे बढ़ती है।

अंत

SWE-RL रियल-वर्ल्ड सॉफ्टवेयर फ्यूटवेयर इंजीनियरिंग के लिए बड़ी भाषा मॉडल को बेहतर बनाने के लिए एक विचारशील और व्यवस्थित दृष्टिकोण प्रस्तुत करता है। यह विधि सॉफ्टवेयर फैटवेयर विकास में मल्टीफ़ेस्टेड चुनौतियों को संबोधित करने के लिए एक नन और प्रभावी माध्यम प्रदान करती है, जो कि गिटब ब्रिज अनुरोधों से पूर्ण जीवन चक्र डेटा को लाभान्वित करके और नियम -आधारित पुरस्कार प्रणाली को एकीकृत करता है। सुदृढीकरण शिक्षा का उपयोग, विशेष रूप से जीआरपीओ जैसी तकनीकों के माध्यम से, मॉडल को तर्क तर्क क्षमताओं को विकसित करने के लिए प्रोत्साहित करता है – न केवल विशिष्ट मुद्दों को हल करने के लिए, बल्कि इन कौशल को कार्यों के सरणी को सामान्य करने की अनुमति भी देता है।

लालमा 3-SWE-RL-70B परिणाम प्राप्त हुए, विशेष रूप से 41.0% एक मानव-सत्यापित बेंचमार्क पर दरों को हल करें, स्वचालित सॉफ्टवेयर फैटवेयर मरम्मत में भविष्य की प्रगति की नींव के रूप में सेवा करने के लिए इस दृष्टिकोण की संभावना को उजागर करें। जबकि पुरस्कार की गणना में चुनौतियां-संवर्धन शब्दार्थ समतुल्य हैं और आगे मूल्यांकन पाइपलाइन-SWE-RL को शुद्ध करने से आगे एक स्पष्ट मार्ग प्रदान करता है। जैसा कि वर्तमान शोध इन तकनीकों में सुधार करना जारी रखता है, सॉफ्टवेयर फैटवेयर इंजीनियरिंग वर्कफ़्लो में सुदृढीकरण शिक्षा का एकीकरण डेवलपर्स के लिए तेजी से मूल्यवान होने की संभावना है।

सारांश में, SWE-RL व्यावहारिक डेटा घटता, निरंतर इनाम-आधारित प्रतिक्रिया और उन्नत सुदृढीकरण सीखने की रणनीतियों के संतुलित संयोजन का प्रतीक है। यह दृष्टिकोण न केवल कोड मरम्मत में परिष्कृत रूप से आगे बढ़ता है, बल्कि भविष्य के शोध के लिए एक संरचना भी प्रदान करता है कि आधुनिक सॉफ्टवेयर फैटवेयर इंजीनियरिंग को परिभाषित करने वाली जटिल, वास्तविक दुनिया की समस्याओं को हल करने के लिए बड़े भाषा मॉडल को कैसे अनुकूलित किया जा सकता है।


जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top