तकनीकी
- प्रबुद्ध
- लेखक
भाषा मॉडल की व्याख्या टीम
भाषा मॉडल की व्याख्या के लिए बिखरे ऑटो टोनकोडर की व्यापक, खुली सुइट घोषणा।
आर्टिफिशियल इंटेलिजेंस (एआई) भाषा मॉडल बनाने के लिए, शोधकर्ता एक ऐसी प्रणाली बनाते हैं जो मानव मार्गदर्शन के बिना बड़ी मात्रा में डेटा से सीखता है। नतीजतन, भाषा मॉडल में देरी का आंतरिक कामकाज अक्सर एक रहस्य होता है, जो शोधकर्ताओं को प्रशिक्षित करने के लिए भी है। व्यवस्थित यह एक शोध क्षेत्र है जो आंतरिक संचालन को समझने पर केंद्रित है। इस क्षेत्र में शोधकर्ता स्वचालित से परहेज किया। एन निक्सोडर्स एक प्रकार के ‘माइक्रोस्कोप’ के रूप में जो उन्हें भाषा मॉडल के अंदर देखने की अनुमति देता है, और यह कैसे काम करता है, इसकी एक अच्छी समझ प्राप्त करता है।
आज, हम जेम्मा स्कोप की घोषणा कर रहे हैं, शोधकर्ताओं को खुले मॉडल, जेम्मा 2 के हमारे हल्के परिवार को समझने में मदद करने के लिए उपकरणों का एक नया सेट। जेम्मा स्कोप ओपन स्पार्स ओटोनकोडर (एसएई) का एक संग्रह है, जिसमें सैकड़ों स्वतंत्र रूप से उपलब्ध हैं, जो जेम्मा 29 बी और जेम्मा 2 2 बी के लिए उपलब्ध हैं। हम सोर्सिंग मिसेज भी खोल रहे हैं, एक उपकरण जिसे हमने बनाया है जिसने जेम्मा स्पेस के पीछे व्याख्या के काम को सक्षम किया है।
हमें उम्मीद है कि आज का प्रकाशन अधिक महत्वाकांक्षी व्याख्या अनुसंधान को सक्षम करेगा। आगे के शोध से क्षेत्र को मजबूत सिस्टम बनाने, मॉडल भ्रम के खिलाफ बेहतर सुरक्षा विकसित करने और धोखाधड़ी या हेरफेर जैसे स्वायत्त एआई एजेंटों के जोखिमों से बचाने के लिए क्षेत्र की मदद करने की संभावना है।
हमारे इंटरएक्टिव जेम्मा स्कोप डेमो, न्यूरोनपीडिया के सौजन्य से आज़माएं।
भाषा मॉडल के भीतर क्या होता है, इसकी व्याख्या
जब आप किसी भाषा के मॉडल डेल को एक प्रश्न पूछते हैं, तो यह आपके पाठ इनपुट को ‘सक्रियण’ की एक श्रृंखला में बदल देता है। ये सक्रियण
जैसा कि मॉडल पाठ इनपुट को संसाधित करता है, मॉडल के तंत्रिका नेटवर्क में विभिन्न स्तरों पर सक्रियण कई बढ़ती उन्नत अवधारणाओं का प्रतिनिधित्व करता है, जिसे ‘सुविधाओं’ के रूप में जाना जाता है।
उदाहरण के लिए, एक मॉडल की प्रारंभिक परतें माइकल जॉर्डन जैसे तथ्यों को याद रखना सीख सकती हैं, जबकि बाद में परतें अधिक जटिल अवधारणाओं जैसे कि पाठ तथ्यों की पहचान कर सकती हैं।
YL ने मॉडल की सक्रियता की व्याख्या करने के लिए एक बिखरे हुए ऑट टोनकोडर का उपयोग करने का परिचय दिया क्योंकि यह इस तथ्य को याद करता है कि रोशनी का शहर पेरिस है। हम देखते हैं कि फ्रेंच -संबंधित अवधारणाएं मौजूद हैं, जबकि गैर -संबंधित लोग नहीं हैं।
हालांकि, व्याख्या शोधकर्ताओं को एक बड़ी समस्या का सामना करना पड़ता है: मॉडल सक्रियण कई अलग -अलग विशेषताओं का मिश्रण है। मैकेस्टिक व्याख्या के शुरुआती दिनों में, शोधकर्ताओं को उम्मीद थी कि तंत्रिका नेटवर्क की सक्रियता में सुविधाओं को व्यक्तिगत न्यूरॉन्स से जोड़ा जाएगा, वह है, सूचना नोड्स। लेकिन दुर्भाग्य से, व्यवहार में, न्यूरॉन्स कई असंबंधित विशेषताओं के लिए सक्रिय हैं। इसका मतलब यह है कि यह कहने का कोई स्पष्ट तरीका नहीं है कि कौन सी विशेषताएं सक्रियण का हिस्सा हैं।
यह वह जगह है जहां बिखरे हुए ओटोनकोडर आते हैं।
एक दी गई सक्रियता केवल कम संख्या में सुविधाओं का एक संयोजन होगी, हालांकि भाषा मॉडल लाखों या यहां तक कि अरबों को खोजने में सक्षम है – हालांकि – वह हैमॉडल सुविधाओं का उपयोग करता है अच्छी तरह से। उदाहरण के लिए, आइंस्टीन के बारे में एक जांच का जवाब देते समय, भाषा का मॉडल सापेक्षता पर विचार करेगा और अंडे आमलेट के बारे में लिखते समय विचार करेंगे, लेकिन आमलेट के बारे में लिखते समय सापेक्षता पर विचार नहीं कर सकते हैं।
बिखरे हुए ओटोनकोडर इस तथ्य से लाभान्वित होते हैं कि संभावित सुविधाओं का एक सेट खोजने के लिए, और प्रत्येक सक्रियण को छोटी संख्या में तोड़ने के लिए। शोधकर्ताओं को उम्मीद है कि इस कार्य को पूरा करने के लिए एक बिखरे हुए ऑटोनकोडर के लिए सबसे अच्छा तरीका यह है कि भाषा मॉडल मॉडल का उपयोग करने वाली वास्तविक अंतर्निहित सुविधाओं को खोजें।
महत्वपूर्ण रूप से, इस प्रक्रिया के कुछ बिंदु पर हम – शोधकर्ता – बिखरे हुए ऑटो टोनकोडर को बताएं कि देखने के लिए सुविधाएँ हैं। नतीजतन, हम समृद्ध रचनाओं को खोजने में सक्षम हैं जिनकी हमने भविष्यवाणी नहीं की है। हालाँकि, क्योंकि हम तुरंत नहीं जानते हैं अर्थ खोज की गई विशेषताओं में से, हम पाठ के उदाहरणों में सार्थक पैटर्न पाते हैं, जहां बिखरे हुए ऑटोनकोडर ‘आग’ सुविधा कहते हैं।
यहाँ टोकन में एक उदाहरण है जहां सुविधा को उनकी शक्ति के अनुसार नीले रंग के ग्रेड में जारी किया जाता है:
हमारे बिखरे हुए ऑटो टोनकोडर की सुविधा के लिए उदाहरण सक्रियण। प्रत्येक बुलबुला एक टोकन (शब्द या शब्द का एक टुकड़ा) है, और चर नीला रंग बताता है कि विशेषता कितनी दृढ़ता से मौजूद है। इस मामले में, सुविधा स्पष्ट रूप से रु। से संबंधित है।
क्या जेम्मा अंतरिक्ष को अद्वितीय बनाता है
बिखरे हुए ऑटोनकोड के साथ पिछला शोध मुख्य रूप से छोटे मॉडल के आंतरिक संचालन या बड़े मॉडलों में जांच के एक स्तर पर केंद्रित है। लेकिन अधिक महत्वाकांक्षी व्याख्या अनुसंधान में बड़े मॉडलों में स्तरित, जटिल गणितीय नियमों को डिकोड करना शामिल है।
हमने बिखरे हुए ऑटो टोनकोडर को प्रशिक्षित किया प्रत्येक जेम्मा 400 से अधिक बिखरे हुए ऑटो टोनकोडर का उत्पादन करती है, जिसमें एक परत और जेम्मा 2 2 बी और 9 बी के उप -आउटपुट के साथ कुल 30 मिलियन से अधिक सीखी गई विशेषताएं होती हैं (हालांकि कई विशेषताएं संभावित ओवरलैप हैं)। यह उपकरण शोधकर्ताओं को अध्ययन करने और रचना करने और रचना करने में सक्षम करेगा कि पूरे मॉडल में विशेषताएं कैसे विकसित होती हैं।
जेम्मा स्पेस को हमारे नए, परिष्कृत जम्पर SAE वास्तुकला के साथ भी प्रशिक्षित किया जाता है। मूल रूप से बिखरे हुए ऑटोनकोडोर आर्किटेक्चर ने उन विशेषताओं को खोजने के लिए दो लक्ष्यों को संतुलित करने के लिए संघर्ष किया जो मौजूद हैं और उनकी शक्ति का अनुमान लगाते हैं। जंबु आर्किटेक्चर इस संतुलन को ठीक से स्ट्राइक करना आसान बनाता है, जिससे त्रुटि को काफी कम कर दिया जाता है।
कई बिखरे हुए ऑटो टोनकोडर को प्रशिक्षित करना एक उल्लेखनीय इंजीनियरिंग चुनौती थी, जिसमें बहुत सारी कंप्यूटिंग पावर की आवश्यकता होती है। हमने GEMMA 29B (आसवन लेबल के उत्पादन को छोड़कर) के प्रशिक्षण की गणना का लगभग 15% उपयोग किया, डिस्क के लिए लगभग 20 PBBYTES (PIB) सक्रियण (अंग्रेजी विकिपीडिया की एक मिलियन प्रतियों के बराबर) को बचाया, और सैकड़ों का उत्पादन किया। कुल अरबों बिखरे हुए ऑटोनकोडोर मापदंडों।
क्षेत्र को मजबूर किया
जेम्मा स्कोप जारी करने के लिए, हम जेम्मा 2 के लिए खुली यंत्रवत व्याख्या के लिए सबसे अच्छा मॉडल परिवार बनाने और इस क्षेत्र में समुदाय के काम को बढ़ावा देने की उम्मीद करते हैं।
अब तक, व्याख्या समुदाय ने बिखरे हुए ऑटो टोनकोडर्स के साथ छोटे मॉडल को समझने और संबंधित तकनीकों को विकसित करने में बहुत प्रगति की है, जैसे कि काम करने का हस्तक्षेप, स्वचालित सर्किट विश्लेषण, दुर्लभ ऑटो टोनकोडर्स की सुविधा व्याख्या और मूल्यांकन। जेम्मा स्कोप के साथ, हम आशा करते हैं कि समुदाय इन तकनीकों को आधुनिक मॉडल में डिलेला में ले जाता है, अधिक जटिल क्षमताओं का विश्लेषण करता है जैसे कि चेन-थिंकिंग, और व्याख्या के वास्तविक दुनिया के अनुप्रयोगों को ढूंढना, जैसे कि वी, जैसे कि भ्रम और जेलब्रेक। बड़े मॉडल से।
पावती
जेम्मा स्पेस टॉम लिबरम, सैन राजमोनोहरन, आर्थर कॉनमी, लुईस स्मिथ, निक सोनरेट, विक्रांत वर्मा, जेनोस क्रेमर और नील नंदा, रोहिन शाह और अंक ड्रैगन द्वारा सलाह दी गई एक सामूहिक प्रयास था। हम विशेष रूप से इंटरएक्टिव डेमो की मदद के लिए न्यूरोनीपेडिया में जॉनी लिन, जोसेफ ब्लूम और कर्ट टाइग्स को धन्यवाद देना चाहते हैं। फोबी किर्क, एंड्रयू फोर्ब्स, एरियल बीयर, आलिया अहमद, यॉटम डोरन, ट्रिस वीके नस्ल, लुडोविक पाइन, केट ब्लैक, आनंद राव, सैमुअल अल्बेनी, सैमुअल अल्बेनी, डेव या, मैट मिलर, मिलर, मेट मिलर, डेव या मेट, मेट। मिलर, मिलर से मिले ,।