नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें
बड़े भाषा के मॉडल डेल्स (एलएलएम) सॉफ्टवेयर विकास को बदल सकते हैं, लेकिन एंटरप्राइज़ ओपनईएआई के सीईओ सैम अल्टमैन के दावों के बावजूद, मॉडल “स्तर” इंजीनियरों को बदल सकते हैं, पूरी तरह से मानव सॉफ्टवेयर इंजीनियरों की जगह ले सकते हैं।
नए पेपर में, Openai शोधकर्ता SWE-Lancer नामक एक विस्तृत LLM बेंचमार्क कमा सकते हैं, यह जांचने के लिए कि फाउंडेशन मॉडल वास्तविक जीवन के फ्रीलांस सॉफ्टवेयर FTWare इंजीनियरिंग कार्यों से कितना कमा सकते हैं। परीक्षण से पता चला कि जब मॉडल त्रुटियों को हल कर सकते हैं, तो वे यह नहीं देख सकते हैं कि त्रुटि क्यों मौजूद है और अधिक गलतियाँ करना जारी रखती है।
शोधकर्ताओं ने तीन LLMS -Openai के GPT -4O और O1 और क्लाउड -3.5 सोननेट ऑफ एन्थ्रोप्रोपिक -फ्रेलेंस प्लेटफॉर्म अपवर्क को सॉफ्टवेयर इंजीनियर फ़ंक्शंस के साथ 1,488 फ्रीलांस के साथ सौंप दिया। उन्होंने कार्यों को दो श्रेणियों में विभाजित किया: व्यक्तिगत योगदानकर्ता (त्रुटियों को हल करना या सुविधाओं को लागू करना), और प्रबंधन कार्य (जहां एक प्रबंधक मॉडल की भूमिका निभाएगा जो मुद्दों को हल करने के लिए सबसे अच्छा प्रस्ताव चुनेगा)।
शोधकर्ताओं ने लिखा, “परिणाम बताते हैं कि हमारे बेंचमार्क में रियल -वर्ल्ड फ्रीलांस फ़ंक्शन फ्रंटियर लैंग्वेज मॉडल डेलो के लिए चुनौतीपूर्ण है।”
परीक्षण से पता चलता है कि फाउंडेशन मॉडल मानव इंजीनियरों को पूरी तरह से प्रतिस्थापित नहीं कर सकते हैं। जब वे त्रुटियों को हल करने में मदद कर सकते हैं, तो वे उस स्तर पर नहीं होते हैं जहां वे फ्रीलांसिंग कैश अर्जित करना शुरू कर सकते हैं।
बेंचमार्किंग फ्रीलांसिंग मॉडल
शोधकर्ताओं और 100 अन्य पेशेवर सॉफ्टवेयर फ्यूटवेयर इंजीनियरों ने अपवर्क पर संभावित कार्यों की पहचान की और, किसी भी शब्द को बदलने के बिना, इस डॉकर कंटेनर को एक एसडब्ल्यू-लांसर डेटासेट बनाने के लिए खिलाया। कंटेनर में इंटरनेट एक्सेस एक्सेस नहीं है और “मॉडल टीओसी को बंद नहीं कर सकते हैं,” उन्होंने समझाया, “स्क्रैपिंग कोड डेफ को खींचने या विवरण खींचने से बचने के लिए।”
टीम ने 764 व्यक्तिगत योगदानकर्ताओं की पहचान की, जो कि लगभग 4 414,775 है, जिसमें 15 -मिनट बग फिक्स टू वीक सुविधा अनुरोधों के साथ है। इन कार्यों, जिसमें फ्रीलांसर प्रस्तावों और नौकरी पोस्टिंग की समीक्षा शामिल है, 5 585,225 का भुगतान करेंगे।
इन कार्यों को एक्सपेंसिंग प्लेटफॉर्म विस्तार में जोड़ा गया था।
शोधकर्ताओं ने कार्य शीर्षक और विवरण और कोडबेस के स्नैपशॉट के आधार पर पूछा। यदि इस मुद्दे को हल करने के लिए अतिरिक्त प्रस्ताव थे, “हमने समस्या विवरण और प्रस्तावों की एक सूची का उपयोग करके एक प्रबंधन कार्य भी बनाया है,” उन्होंने समझाया।
यहां से, शोधकर्ता अंत से अंत तक परीक्षण विकास के लिए चले गए। उन्होंने प्रत्येक कार्य के लिए एक नाटककार परीक्षण लिखे, जो इन उत्पादित पैच को लागू करता है जो उस समय पेशेवर सॉफ्टवेयर फ्यूटवेयर इंजीनियरों द्वारा “ट्रिपल-सत्यापित” थे।
पेपर बताता है, “परीक्षण वास्तविक दुनिया के उपयोगकर्ता प्रवाह की नकल करते हैं, जैसे कि आवेदन में गिंग, जटिल क्रियाओं का प्रदर्शन (वित्तीय व्यवहार करना), और उम्मीद के मुताबिक मॉडल डेल के निपटान का परीक्षण करते हैं,” पेपर बताता है।
परीक्षा परिणाम
परीक्षण चलाने के बाद, शोधकर्ताओं ने पाया कि किसी भी मॉडल को 1 मिलियन कार्यों का पूरा मिलियन मूल्य नहीं मिला है। क्लाउड 3.5 सॉनेट, सर्वश्रेष्ठ प्रदर्शन मॉडल, ने व्यक्तिगत योगदानकर्ताओं के लिए केवल 8 208,050 और 26.2% समाधान अर्जित किए। हालांकि, शोधकर्ताओं ने कहा, “इसके अधिकांश समाधान झूठे हैं, और विश्वसनीय तैनाती के लिए उच्च विश्वसनीयता की आवश्यकता है।”
मॉडल ने अधिकांश व्यक्तिगत योगदानकर्ताओं में अच्छा प्रदर्शन किया, क्लाउड 3.5-एनटी एनटी के साथ सबसे अच्छा प्रदर्शन किया, इसके बाद ओ 1 और जीपीटी -4 ओ।
रिपोर्ट बताती है, “एजेंट स्थानीयकरण में सर्वश्रेष्ठ हैं, लेकिन मूल कारण में विफल होते हैं, जिसके परिणामस्वरूप आंशिक या दोषपूर्ण समाधान होते हैं।” “एजेंट प्रासंगिक फ़ाइल और कार्यों का जल्दी से पता लगाने के लिए, संपूर्ण रिपॉजिटरी में कीवर्ड का उपयोग करते हुए, एक मुद्दे के स्रोत को काफी जल्दी से इंगित करते हैं – अक्सर मानव की तुलना में तेजी से। हालांकि, वे अक्सर कई घटकों या फाइलों को फैलाते हैं, एक सीमित समझ दिखाता है, और विफल रहता है। मूल कारण पर विचार करें, जिसका उद्देश्य शायद ही कभी मुद्दे या झूठे या अपर्याप्त के कारण का उत्पादन करना है। उपयुक्त फ़ाइल या स्थान की कमी के कारण विफल रहता है।
दिलचस्प बात यह है कि सभी ने प्रबंधक कार्यों पर बेहतर किया, जिन्हें तकनीकी समझ का मूल्यांकन करने के लिए तर्क की आवश्यकता थी।
इन बेंचमार्क परीक्षणों से पता चलता है कि एआई मॉडल कुछ “निचले-स्तरीय” कोडिंग मुद्दों को हल कर सकते हैं और अभी तक “निम्न-स्तरीय” एस सॉफ्टवेयर फैटवेयर इंजीनियरों को बदल नहीं सकते हैं। मॉडल ने अभी भी समय लिया, अक्सर गलतियाँ कीं, और कोडिंग समस्याओं के मूल कारण को खोजने के लिए आसपास की त्रुटि का पीछा नहीं कर सके। कई “निम्न-स्तरीय” इंजीनियर बेहतर काम करते हैं, लेकिन शोधकर्ताओं ने कहा कि यह बहुत लंबा मामला नहीं हो सकता है।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो VB ने आपको दैनिक कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
