सॉफ्टवेयर फैटवेयर इंजीनियरिंग में विकसित चुनौतियों को संबोधित करना इस विश्वास के साथ शुरू होता है कि पारंपरिक बेंचमार्क अक्सर कम हो जाता है। रियल-वर्ल्ड फ्रीलांस सॉफ्टवेयर फ्यूटवेयर इंजीनियरिंग जटिल है, जिसमें विभिन्न कोडिंग फ़ंक्शन से अधिक शामिल हैं। फ्रीलांस इंजीनियर पूर्ण कोडबेस पर काम करते हैं, विभिन्न प्रणालियों को एकीकृत करते हैं, और ग्राहक की जटिल आवश्यकताओं का प्रबंधन करते हैं। पारंपरिक मूल्यांकन के तरीके, जो आमतौर पर इकाई परीक्षणों पर जोर देते हैं, पूर्ण-स्टॉक प्रदर्शन और समाधान के वास्तविक वित्तीय प्रभाव जैसे महत्वपूर्ण पहलुओं को याद करते हैं। कृत्रिम परीक्षणों और व्यावहारिक अनुप्रयोग के बीच इस दूरी से अधिक वास्तविक मूल्यांकन विधियों की आवश्यकता है।
Openai ने SW-Lancer का परिचय दिया, जो वास्तविक दुनिया के फ्रीलांस सॉफ्टवेयर फैटवेयर इंजीनियरिंग कार्य पर मॉडल प्रदर्शन का मूल्यांकन करने के लिए एक बेंचमार्क है। बेंचमार्क 1,400 से अधिक फ्रीलांस फ़ंक्शन पर आधारित है, जो कि अपवर्क और एक्सपेंस्टिफाइड रिपॉजिटरी से लिया जाता है, जिसमें कुल $ 1 मिलियन का भुगतान होता है। कार्य छोटे बग फिक्स से मुख्य सुविधा तक हैं। SWE-Lancer को व्यक्तिगत कोड पैच और प्रबंधन निर्णय दोनों का मूल्यांकन करने के लिए डिज़ाइन किया गया है, जहां कई विकल्पों से सर्वश्रेष्ठ प्रस्ताव का चयन करने के लिए मॉडल की आवश्यकता होती है। यह दृष्टिकोण वास्तविक इंजीनियरिंग टीमों में देखी गई दोहरी भूमिकाओं को बेहतर ढंग से दर्शाता है।
SW-Lenser की मुख्य शक्ति में से एक एक अलग इकाई परीक्षण के बजाय अंतिम-से-अंतिम परीक्षणों का उपयोग है। इन परीक्षणों को सावधानीपूर्वक डिज़ाइन किया गया है और पेशेवर सॉफ्टवेयर फ्यूटवेयर इंजीनियरों द्वारा सत्यापित किया गया है। वे पूर्ण उपयोगकर्ता वर्कफ़्लो का अनुकरण करते हैं – समस्या की पहचान और डिबगिंग से पैच सत्यापन तक। मूल्यांकन के लिए एक एकीकृत डॉकर छवि का उपयोग करते हुए, बेंचमार्क यह सुनिश्चित करता है कि प्रत्येक मॉडल को एक ही नियंत्रित परिस्थितियों में परीक्षण किया जाता है। यह कठोर परीक्षण संरचना यह बताने में मदद करती है कि क्या एक मॉडल समाधान व्यावहारिक तैनाती के लिए पर्याप्त मजबूत होगा।
SW-LENSER के तकनीकी विवरण को फ्रीलांस के काम की वास्तविकताओं को दर्पण देने के लिए सोच-समझकर बनाया गया है। कार्यों को कई फ़ाइलों और एपीआई के साथ एकीकरण में बदलाव की आवश्यकता होती है, और मोबाइल और वेब प्लेटफॉर्म दोनों का विस्तार होता है। कोड पैच का उत्पादन करने के अलावा, मॉडल को प्रतियोगिता प्रस्तावों की समीक्षा और चयन करने के लिए चुनौती दी जाती है। तकनीकी और प्रबंधन कौशल पर यह दोहरी ध्यान सॉफ्टवेयर फ्यूटवेयर इंजीनियरों की सही जिम्मेदारियों को दर्शाता है। एक उपयोगकर्ता टूल का समावेश जो वास्तविक उपयोगकर्ता इंटरैक्शन की नकल करता है, दोहराव डिबगिंग और समायोजन को बढ़ावा देकर मूल्यांकन को बढ़ाता है।

SWE-Lancer के परिणाम सॉफ्टवेयर फैटवेयर इंजीनियरिंग में भाषा मॉडल की वर्तमान क्षमताओं की मूल्यवान अंतर्दृष्टि प्रदान करते हैं। व्यक्तिगत योगदानकर्ताओं में, GPT -4O और CLOUD 3.5 SONATE को क्रमशः 8.0% और 26.2% की पास दर मिली। प्रबंधन के काम में, सबसे अच्छा मॉडल 44.9%की पास दर तक पहुंच गया। इन संख्याओं से संकेत मिलता है कि जब आधुनिक मॉडल होनहार समाधान प्रदान कर सकते हैं, तब भी सुधार के लिए एक महत्वपूर्ण जगह है। अतिरिक्त प्रयोगों से पता चलता है कि अधिक से अधिक प्रयास की अनुमति देना या परीक्षण-समय की गणना को बढ़ाना सार्थक तरीके से सार्थक हो सकता है, विशेष रूप से अधिक चुनौतीपूर्ण कार्यों पर।

अंत में, SW-Lancer Software Futware इंजीनियरिंग में AI का मूल्यांकन करने के लिए एक विचारशील और वास्तविक दृष्टिकोण प्रस्तुत करता है। बेंचमार्क मॉडल की व्यावहारिक क्षमताओं की अधिक सटीक तस्वीर प्रदान करता है, सीधे मॉडल के प्रदर्शन को वास्तविक वित्तीय मूल्य के साथ जोड़ता है और पूर्ण-स्टिक चुनौतियों पर जोर देता है। यह फ़ंक्शन फ्रीलांस काम के आर्थिक और तकनीकी वास्तविकताओं को दर्शाते हुए आकलन की ओर कृत्रिम मूल्यांकन मैट्रिक्स से दूर एक कदम को बढ़ावा देता है। जैसे-जैसे क्षेत्र विकसित हो रहा है, SW-Lancer शोधकर्ताओं और पेशेवरों के लिए एक समान रूप से मूल्यवान उपकरण के रूप में कार्य करता है, वर्तमान सीमाओं और सुधार के लिए संभावित तरीकों दोनों को स्पष्ट अंतर्दृष्टि देता है। अंततः, यह बेंचमार्क सॉफ्टवेयर फ्यूटवेयर इंजीनियरिंग प्रक्रिया में एआई के सुरक्षित और अधिक प्रभावी एकीकरण के लिए मार्ग प्रशस्त करने में मदद करता है।
जाँच करना कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 के+ एमएल सब्राडिट।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए

ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।
🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)