यह अनुमान लगाना बंद करें कि आपका LLMS क्यों टूटता है: एन्थ्रोपिक का नया टूल आपको दिखाता है कि वास्तव में क्या गलत हो जाता है


नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें


बड़े भाषा मॉडल डेल्स (एलएलएम) यह बदल रहे हैं कि उद्यम कैसे काम करता है, लेकिन उनकी “ब्लैक बी बॉक्स” प्रकृति अक्सर उद्यम के साथ अनपेक्षित रूप से संघर्ष करती है। इस महत्वपूर्ण चुनौती को संबोधित करते हुए, एन्थ्रोपिक ने हाल ही में अपने सर्किट ट्रेसिंग टूल को उजागर किया, जिससे डेवलपर्स और शोधकर्ताओं को मॉडल के आंतरिक संचालन को सीधे समझने और नियंत्रित करने की अनुमति मिली।

यह उपकरण जांचकर्ताओं को खुले -वजन वाले मॉडल में अस्पष्ट त्रुटियों और अप्रत्याशित व्यवहार की जांच करने की अनुमति देता है। यह कुछ आंतरिक कार्यों के लिए LLMS ग्रैन्युलर फाइन-ट्यूनिंग में भी मदद कर सकता है।

एआई के आंतरिक तर्क को समझना

यह सर्किट एक ट्रेसिंग टूल “मैकेनिकल इंटरप्रिटेशन” पर आधारित है, जो यह समझने के लिए समर्पित है कि एआई मॉडल उनके आंतरिक सक्रियण के बजाय उनके इनपुट और आउटपुट के आधार पर कैसे काम करते हैं।

जबकि सर्किट ट्रेसिंग पर एन्थ्रोपिक का प्रारंभिक शोध इस विधि को अपने स्वयं के क्लाउड 3.5 हाइकु मॉडल पर लागू करता है, ओपन सोर्ड टूल इस क्षमता को ओपन-वेट मॉडल के लिए विस्तारित करता है। एंथ्रोपिक की टीम ने पहले से ही जेम्मा -2-2 बी और लालामा -3.2-1 बी जैसे मॉडलों में सर्किट का पता लगाने के लिए टूल का उपयोग किया है और एक कोलैब नोटबुक पेश किया है जो खुले मॉडल पर एक पुस्तकालय का उपयोग करने में मदद करता है।

टूल का मुख्य भाग एट्रिब्यूशन ग्राफ है, कारण मानचित्र जो मॉडल की जानकारी की प्रक्रिया के रूप में सुविधाओं के बीच बातचीत को पाते हैं और आउटपुट का उत्पादन करते हैं। (विशेषताएं मॉडल के आंतरिक सक्रियण पैटर्न हैं जिन्हें लगभग समझने योग्य अवधारणाओं के लिए मैप किया जा सकता है।) यह एआई की आंतरिक विचार प्रक्रिया के विस्तृत वायरिंग आरेख प्राप्त करने जैसा है। इससे भी महत्वपूर्ण बात, उपकरण “हस्तक्षेप प्रयोगों” को सक्षम करता है, जिससे शोधकर्ताओं को इन आंतरिक विशेषताओं को सीधे सुधारने की अनुमति मिलती है, और एआई की आंतरिक स्थिति निगरानी कर सकती है कि इसके बाहरी उत्तर बाहरी उत्तरों को कैसे प्रभावित करते हैं, जिससे मॉडल को डिबग करना संभव हो जाता है।

उपकरण न्यूरोनिपेडिया के साथ एकीकृत है, एक तंत्रिका नेटवर्क के साथ समझने और प्रयोग करने के लिए एक खुला मंच।

न्यूरोंडिया पर सर्किट ट्रेसिंग (स्रोत: एन्थ्रोपिक ब्लॉग)
न्यूरॉनपीडिया पर सर्किट ट्रेसिंग (स्रोत: एन्थ्रोपिक ब्लॉग)

प्रयोगात्मक और उद्यम एआई के लिए भविष्य का प्रभाव

जबकि एंथ्रोपिक का सर्किट ट्रेसिंग टूल समझाने और नियंत्रणीय एआई की दिशा में एक बड़ा कदम है, इसमें व्यावहारिक चुनौतियां हैं, जिसमें उपकरण से जुड़ी उच्च मेमोरी लागत और विस्तृत एट्रिब्यूशन ग्राफ की जटिलता शामिल है।

हालांकि, ये चुनौतियां अत्याधुनिक अनुसंधान के लिए विशिष्ट हैं। यांत्रिक व्याख्या अनुसंधान का एक प्रमुख क्षेत्र है, और अधिकांश बड़ी एआई प्रयोगशालाएं बड़े भाषा मॉडल के आंतरिक संचालन की जांच करने के लिए मॉडल विकसित कर रही हैं। सर्किट ट्रेसिंग टूल को खोलने के लिए, एन्थ्रोपिक समुदाय समुदाय को अधिक स्केलेबल, स्वचालित और उपयोगकर्ताओं के व्यापक सरणियों के लिए सुलभ व्याख्या करने योग्य उपकरण विकसित करने में सक्षम करेगा, एलएलएम को समझने के लिए सभी प्रयासों के व्यावहारिक अनुप्रयोगों को खोलना।

टूलींग परिपक्व होने के नाते, यह समझने की क्षमता कि एलएलएम एक विशिष्ट निर्णय क्यों करता है, उद्यमों को व्यावहारिक लाभ का अनुवाद कर सकता है।

सर्किट ट्रेसिंग बताती है कि एलएलएम एक सभ्य बहु-चरण तर्क कैसे करता है। उदाहरण के लिए, अपने अध्ययन में, शोधकर्ताओं को यह पता चल सकता था कि “टेक्सास” को “स्टीन में” तक पहुंचने से पहले “डलास” से राजधानी के रूप में कैसे अनुमान लगाया गया था। यह उन्नत नियोजन विधियों को भी प्रकट करता है, जैसे कि कविता में एक पूर्व-चयनित मॉडल कविता में लाइन के डिजाइन को निर्देशित करने के लिए। यह अंतर्दृष्टि उद्यम डेटा विश्लेषण या कानूनी तर्क जैसे जटिल कार्यों का विश्लेषण करने के लिए अंतर्दृष्टि का उपयोग कर सकती है। आंतरिक योजना या तर्क चरणों को निर्देशित करने से जटिल व्यावसायिक प्रक्रियाओं में इष्टतम ptimization, दक्षता और सटीकता में सुधार की अनुमति मिलती है।

स्रोत: नृविज्ञान

इसके अलावा, सर्किट ट्रेसिंग सांख्यिकीय संचालन में बेहतर स्पष्टता प्रदान करता है। उदाहरण के लिए, उनके शिक्षण में, शोधकर्ताओं ने पाया कि कैसे 36+59 = 95 हैंडल जैसे मॉडल उत्पन्न होते हैं। उदाहरण के लिए, उद्यम संख्यात्मक परिणामों के लिए अग्रणी आंतरिक गणनाओं को डीआईटी करने के लिए इस तरह की अंतर्दृष्टि का उपयोग कर सकते हैं, त्रुटियों की जड़ों की पहचान कर सकते हैं, और अपने ओपन-सेयर्स एलएलएम में डेटा की अखंडता और डेटा की सटीकता सुनिश्चित करने के लिए लक्षित सुधारों को लागू कर सकते हैं।

वैश्विक तैनाती के लिए, उपकरण बहुभाषी स्थिरता की अंतर्दृष्टि प्रदान करता है। एन्थ्रोपिक के पिछले शोध से पता चलता है कि मॉडल भाषा-विशिष्ट और अमूर्त, भाषा-प्रासंगिक “सार्वभौमिक मानसिक भाषा” सर्किट दोनों को नियोजित करते हैं, जिसमें बड़े मॉडल अधिक सामान्यीकरण दिखाते हैं। ये संभावित स्थानीयकरण विभिन्न भाषाओं में मॉडल को तैनात करते समय डिबग में मदद कर सकते हैं।

अंत में, उपकरण भ्रम से लड़ने और तथ्य ग्राउंडिंग में सुधार करने में मदद कर सकता है। अनुसंधान से पता चला है कि अज्ञात प्रश्नों के लिए मॉडल “डिफ़ॉल्ट लेफ्टिनेंट रिफ्यूज सर्किट” हैं, जिन्हें “ज्ञात उत्तर” सुविधाओं द्वारा दबाया जाता है। यह ऑब्सट्रक्टिव सर्किट “गलत तरीके से भरा” हो सकता है।

स्रोत: नृविज्ञान

मौजूदा मुद्दों को डिबग करने के अलावा, यह यंत्रवत समझ LLMS के लिए फाइन-ट्यूनिंग के लिए नए तरीके को हटा देती है। परीक्षण और त्रुटि द्वारा केवल आउटपुट व्यवहार को समायोजित करने के बजाय, उद्यम विशिष्ट आंतरिक तरीकों की पहचान और लक्षित कर सकता है जो वांछित या अवांछित लक्षणों को निष्पादित करते हैं। उदाहरण के लिए, कैसे एक मॉडल के “सहायक व्यक्ति” अनजाने में एक छिपे हुए इनाम मॉडल पूर्वाग्रह के होते हैं, जैसे कि एंथ्रोपिक के अनुसंधान, डेवलपर्स को संरेखण के लिए जिम्मेदार आंतरिक सर्किटों को फिर से करने की अनुमति देता है, जो एक मजबूत और नैतिक रूप से सुसंगत एआई तैनाती का कारण बनता है।

चूंकि LLMS जटिल उद्यम कार्यों में अधिक से अधिक जटिल है, उनकी पारदर्शिता, व्याख्या और नियंत्रण अधिक से अधिक महत्वपूर्ण हो जाते हैं। उपकरणों की यह नई वेतन पीढ़ी AI की शक्तिशाली क्षमताओं और मानवीय समझ, बुनियादी आत्मविश्वास को बना सकती है और यह सुनिश्चित कर सकती है कि उद्यम को विश्वसनीय, AUD DETABLE और तैनात AI सिस्टम को उनके रणनीतिक उद्देश्यों के साथ व्यवस्थित किया जा सकता है।

Scroll to Top