सामान्य बेंचमार्क से परे: कैसे youremen उद्यम को वास्तविक डेटा के खिलाफ AI मॉडल का मूल्यांकन करने की अनुमति देता है


नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें


प्रत्येक एआई मॉडल रिलीज अनिवार्य रूप से इस बेंचमार्क परीक्षण के चार्ट में शामिल है या मूल्यांकन मैट्रिक्स में इसके प्रतियोगियों को कैसे आगे बढ़ाता है।

हालांकि, इस बेंचमार्क को अक्सर सामान्य क्षमताओं के लिए परीक्षण किया जाता है। उन संगठनों के लिए जो मॉडल डेलो और बड़ी भाषा के मॉडल -आधारित एजेंटों का उपयोग करना चाहते हैं, एजेंट या मॉडल का मूल्यांकन करना मुश्किल है, वास्तव में उनकी विशिष्ट आवश्यकताओं को समझता है।

मॉडल रिपॉजिटरी हगिंग फेस लॉन्च योरबांच, एक ओपन सोर्स टूल, जहां डेवलपर्स और एंटरप्राइज अपने आंतरिक डेटा के खिलाफ मॉडल के प्रदर्शन का परीक्षण करने के लिए अपने स्वयं के बेंचमार्क बना सकते हैं।

ह्यूगिंग फेस पर इवैल्यूएशन रिसर्च टीम का हिस्सा सुमुक शशीधर ने एक्स पर एक यूएसबीएनसीएच की घोषणा की। यह सुविधा “आपके किसी भी दस्तावेज से कस्टम बेंचमार्किंग और कृत्रिम डेटा पीढ़ी प्रदान करती है। मॉडल कैसे काम करता है, इसे सुधारने की दिशा में एक बड़ा कदम है।”

उन्होंने कहा कि गले लगाने का चेहरा जानता है कि “कई उपयोग के मामलों के लिए वास्तव में महत्वपूर्ण है कि एक मॉडल आपका विशेष काम करता है। आपका मुंबई आपको उन मॉडल का मूल्यांकन करने की अनुमति देगा जो महत्वपूर्ण है।”

अनुकूलित करना

हगिंग फेस ने एक पेपर में कहा कि योरबांच एक बड़े मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (एमएमएलयू) के बेंचमार्क की नकल करके काम करता है, “न्यूनतम स्रोत पाठ का उपयोग करते हुए, इसे पूर्ण पूर्वानुमान में $ 15 के तहत प्राप्त होता है जबकि प्रासंगिक मॉडल पूरी तरह से संरक्षित है।”

संगठनों को काम करने से पहले अपने दस्तावेजों को पूर्व-प्रसार करने की आवश्यकता होती है। इनमें तीन चरण शामिल हैं:

  • दस्तावेज़ “सामान्य” फ़ाइल स्वरूपों के लिए।
  • सार्थक संदर्भ विंडो सीमा को पूरा करने और मॉडल पर ध्यान केंद्रित करने के लिए दस्तावेजों को तोड़ना।
  • प्रलेख सारांश

आगे एक प्रश्न और उत्तर-जनरेशन प्रक्रिया है, जो दस्तावेजों की जानकारी से प्रश्न बनाता है। यह वह जगह है जहां उपयोगकर्ता अपने चुने हुए एलएलएम को यह देखने के लिए लाता है कि कौन से प्रश्न सबसे अच्छे उत्तर देते हैं।

दीप्स्क वी 3 और आर सॉनेट और क्लाउड 3.5 हाइकू।

शशिष्ठ ने कहा कि हग फेस भी मॉडल पर लागत विश्लेषण प्रदान करता है और पाया कि क्वेन और मिथुन 2.0 फ्लैश “बहुत कम लागत पर जबरदस्त मूल्य पैदा करता है।”

गणना सीमा

हालांकि, संगठन के दस्तावेजों के आधार पर, कस्टम एलएलएम एक बेंचमार्क बनाने की कीमत पर आता है। अपने गुच्छा को काम करने के लिए आपको बहुत सारी गिनती शक्ति की आवश्यकता है। शशिष्ठ ने एक्स पर कहा कि कंपनी जितनी तेजी से “क्षमता जोड़ रही है” है।

हग फेस Google जैसी कंपनियों के साथ कई GPU और भागीदार चलाता है ताकि उनकी क्लाउड सेवाओं का उपयोग कार्यों का अनुमान लगाने के लिए किया जाए। वेंचरबैट अपने बैंक की खपत के बारे में चेहरा गले लगाने के लिए पहुंचे।

बेंचमार्किंग सही नहीं है

बेंचमार्क और अन्य मूल्यांकन विधियां उपयोगकर्ताओं को यह अंदाजा लगाती हैं कि मॉडल कैसे करते हैं, लेकिन ये मॉडल पूरी तरह से कैप्चर नहीं करते हैं कि वे हर दिन कैसे काम करते हैं।

कुछ लोगों ने संदेह भी दिखाया है कि बेंचमार्क परीक्षण मॉडल की सीमाओं को दिखाते हैं और उनकी सुरक्षा और प्रदर्शन के बारे में झूठे निष्कर्ष निकाल सकते हैं। एक अध्ययन यह भी चेतावनी देता है कि बेंचमार्किंग एजेंट “भ्रामक” हो सकते हैं।

हालांकि, उद्यम अब उन मॉडल के मूल्यांकन से बच सकते हैं जो बाजार में कई विकल्प हैं, और तकनीकी नेता एआई मॉडल का उपयोग करने की बढ़ती लागत को सही ठहराते हैं। इस मॉडल ने प्रदर्शन और विश्वसनीयता का परीक्षण करने के लिए अलग -अलग तरीकों को जन्म दिया है।

Google DeepMind ने तथ्यों को ग्राउंडिंग प्रस्तुत किया, जो दस्तावेजों की जानकारी के आधार पर सटीक उत्तर का उत्पादन करने के लिए मॉडल की क्षमता का परीक्षण करता है। कुछ येल और त्सुइगा विश्वविद्यालय के शोधकर्ताओं ने उद्यम को निर्देशित करने के लिए एक सेल्फ अटैक कोड बेंचमार्क विकसित किया, जिसके लिए कोडिंग एलएलएम उनके लिए काम करती है।

Scroll to Top