उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें
एआई उत्पन्न करने में रुचि रखने वाले अधिकांश लोग पहले से ही जानते हैं कि बड़े -लैंगुएज मॉडल डेल्स (एलएलएम) – जैसे कि चैट के पीछे, एंथ्रोपिक के क्लाउड और गूगल जेमिनी – को विशाल डेटासेट पर प्रशिक्षित किया जाता है: वेबसाइट, किताबें, कोड और, अधिक से अधिक, ऑडियो और अन्य शब्द। लेकिन क्यों?
इस डेटा से, एलएलएम, भाषा, इसके पैटर्न और दुनिया की संख्यात्मक समझ विकसित होती है – कृत्रिम न्यूरॉन्स के एक नेटवर्क में अरबों के आयामों या “सेटिंग्स” को एनकोड करता है (जो गणितीय फ़ंक्शन हैं जो इनपुट डेटा को आउटपुट संकेतों में परिवर्तित करते हैं)।
इन सभी प्रशिक्षण डेटा के संपर्क में आने से, LLMS अपने न्यूरॉन्स के आयामों में परिलक्षित पैटर्न को खोजने और सामान्य करने के लिए सीखता है। उदाहरण के लिए, “सेब” शब्द अक्सर भोजन, फल या पेड़ों और कभी -कभी कंप्यूटर -संबंधित स्थितियों के करीब दिखाई देता है। मॉडल वापस ले लेता है कि सेब लाल, हरा या पीला या कभी -कभी अन्य रंग हो सकता है यदि सड़ा हुआ या दुर्लभ हो, “सेब” अंग्रेजी में और खाद्य में लिखा जाता है। यह संख्यात्मक जीई ज्ञान प्रभावित करता है कि जब उपयोगकर्ता प्रॉम्प्ट में प्रवेश करता है तो मॉडल कैसे प्रतिक्रिया करता है – यह प्रशिक्षण डेटा से “सीखा” संघों के आधार पर बनाए गए आउटपुट को आकार देता है।
लेकिन एक बड़ा सवाल – एआई शोधकर्ताओं के बीच भी – लंबित: एलएलएम बनाने के लिए कितना प्रशिक्षण डेटा का उपयोग किया जाता है विस्तृत अवधारणाओं का प्रतिनिधित्व, और इसके बजाय कितना है अविस्मरणीय शब्दशः या उसी तरह संग्रहीत किया जाता है जो एक ही या लगभग मूल डेटा है?
LLMS कैसे काम करता है – और यह बेहतर समझना महत्वपूर्ण नहीं है कि जब वे गलत हो जाते हैं – लेकिन मॉडल प्रदाता कॉपीराइट पाइराइट उल्लंघन निगम में खुद का बचाव करते हैं, डेटा रचनाकारों और मालिकों द्वारा लाया गया, जैसे कि कलाकार और रिकॉर्ड लेबल। यदि LLMS को उनके प्रशिक्षण डेटा शब्दशः के महत्वपूर्ण हिस्सों को पुन: पेश करने के लिए दिखाया गया है, तो अदालतें वादी का तर्क देती हैं कि मॉडल अवैध रूप से सुरक्षित सामग्री के IED का उपभोग करते हैं। यदि नहीं – यदि मॉडल कुछ प्रतिकृतियों के बजाय सामान्यीकृत पैटर्न के आधार पर आउटपुट का उत्पादन करने के लिए पाए जाते हैं – डेवलपर्स मौजूदा कानूनी रक्षा जैसे उचित उपयोग के तहत कॉपी पाइराइट डेटा पर स्क्रैपिंग और प्रशिक्षण जारी रख सकते हैं।
अब, हमारे पास आखिरकार इस सवाल का जवाब है कि हम एलएलएम के खिलाफ सामान्यीकरण के खिलाफ कितना याद करते हैं: मेटा, गूगल डीपमाइंड, कॉर्नेल विश्वविद्यालय और एनवीडिया शोधकर्ताओं ने इस सप्ताह एक नया अध्ययन पाया। जीपीटी-शैली के मॉडल में प्रति आयाम लगभग 3.6 बिट्स की एक निश्चित मेमोरी होती है।
यह समझने के लिए कि अभ्यास में 3.6 बिट्स का क्या मतलब है:
- थोड़ा सा डिजिटल डेटा की सबसे छोटी इकाई है, जो 0 या 1 का प्रतिनिधित्व करती है। आठ बिट्स एक बाइट बनाते हैं।
- 6.6 बिट्स को संग्रहीत करने से लगभग 12.13 अलग -अलग मूल्यों की अनुमति मिलती है, जैसे कि 2^3.6 द्वारा गिना जाता है।
- यह 12 विकल्पों में से एक को चुनने के लिए आवश्यक जानकारी की मात्रा के बारे में है-एक महीने के चयन या 12-पक्षीय डाई रोल के परिणाम के रूप में।
- यह यहां तक कि एक अंग्रेजी पत्र भी स्टोर करने के लिए पर्याप्त नहीं है (जिसमें लगभग 7.7 बिट्स की आवश्यकता होती है), लेकिन यह 10 सामान्य अंग्रेजी वर्णों के कम सेट से चरित्र को एनकोड करने के लिए पर्याप्त है (जिसमें लगभग 32.324 बिट्स की आवश्यकता होती है)।
- बाइट्स में, 6.6 बिट्स 0.45 बाइट्स होते हैं – ASCII में संग्रहीत विशिष्ट चरित्र के आधे आकार का आकार (जो 8 बिट्स या 1 बाइट का उपयोग करता है)।
यह संख्या उचित वास्तुशिल्प विविधताओं में एक मॉडल-तैराक है: विभिन्न THS, चौड़ाई और सटीक समान परिणाम उत्पन्न करते हैं। अनुमान को मॉडल के आकार और सटीक स्तरों में स्थिर रखा गया था, जिसमें पूर्ण-सटीक मॉडल थोड़ा अधिक मूल्यों (83.8383 बिट्स/आयाम तक) तक पहुंच गए थे।
अधिक प्रशिक्षण डेटा अधिक याद दिलाता है – वास्तव में, एक मॉडल होगा कम संभावना किसी भी डेटा बिंदु को याद करने के लिए
अनुसंधान का एक मुख्य साधन यह है कि मॉडल अधिक डेटा पर प्रशिक्षण के दौरान बहुत याद नहीं करते हैं। इसके बजाय, एक मॉडल की निश्चित क्षमता को डेटासेट तक पहुंचाया जाता है, जिसका अर्थ है कि प्रत्येक व्यक्तिगत डेटापोंट पर कम ध्यान दिया जाता है।
मुख्य लेखक जैक मॉरिस ने सोशल नेटवर्क एक्स के माध्यम से समझाया कि “अधिक डेटा मॉडल को कम नमूनों को याद करने के लिए मजबूर करेगा।”
ये निष्कर्ष बड़े मॉडलों के आसपास चिंताओं को सुविधाजनक बनाने में मदद कर सकते हैं जो कॉपी पाइराइट या संवेदनशील सामग्री को याद करते हैं।
यदि कई उदाहरण यादगार सीमित और पतले हैं, तो किसी भी एक विशेष प्रशिक्षण उदाहरण को बहाल होने की संभावना कम है। संक्षेप में, अधिक प्रशिक्षण डेटा सुरक्षित सामान्यीकरण व्यवहार की ओर जाता है, न कि जोखिम में वृद्धि।
शोधकर्ता इन निष्कर्षों को कैसे पहचानते हैं?
यह प्रमाणित करने के लिए कि भाषा मॉडल के मॉडल कितना करते हैं, शोधकर्ताओं ने अपरंपरागत लेकिन शक्तिशाली दृष्टिकोण का उपयोग किया: उन्होंने समान रूप से यादृच्छिक बिटस्ट्रिंग से बने डेटासेट पर ट्रांसफार्मर मॉडल को प्रशिक्षित किया। इनमें से प्रत्येक बिटस्ट्रिंग को स्वतंत्र रूप से नमूना लिया गया था, यह सुनिश्चित करते हुए कि उदाहरणों में कोई पैटर्न, संरचना या अतिरेक मौजूद नहीं है।
चूंकि प्रत्येक नमूना अद्वितीय और साझा सुविधाओं से वंचित है, मॉडल दिखाने की कोई भी क्षमता मूल्यांकन के दौरान इन स्ट्रिंग्स को पुनर्गठित या पहचानें यह सीधे दर्शाता है कि यह कितनी जानकारी को बनाए रखता है – या याद रखें– प्रशिक्षण।
इस सेटअप का मुख्य कारण सामान्यीकरण की संभावना को पूरी तरह से समाप्त करना था। प्राकृतिक भाषा के विपरीत – जो व्याकरणिक रचना, शब्दार्थ ओवरलैप और दोहरावदार अवधारणाओं से भरा है – एक ही यादृच्छिक डेटा में ऐसी कोई जानकारी नहीं है। प्रत्येक उदाहरण अनिवार्य रूप से शोर है, जिसमें किसी अन्य के साथ कोई सांख्यिकीय संबंध नहीं है। ऐसे परिदृश्य में, परीक्षण डेटा पर मॉडल द्वारा किसी भी प्रदर्शन प्रशिक्षण को उदाहरणों की स्मृति के साथ पूरी तरह से आना चाहिए, क्योंकि सामान्यीकरण के लिए कोई वितरण पैटर्न नहीं है।
लेखकों का तर्क है कि उनकी विधि शायद है शिक्षा से याद रखने वाले एकमात्र सिद्धांतों में से एक व्यवहार में, क्योंकि जब LLMS को वास्तविक भाषा पर प्रशिक्षित किया जाता है, तब भी जब वे प्रशिक्षण डेटा से मेल खाने वाले आउटपुट का उत्पादन करते हैं, तो यह जानना मुश्किल होता है कि वे इनपुट को याद करते हैं या कि उन्होंने अपने द्वारा देखे गए पैटर्न से अंतर्निहित संरचना का अनुमान लगाया था।
यह विधि शोधकर्ताओं के लिए मॉडल मापदंडों की संख्या और संग्रहीत कुल जानकारी के बीच एक सीधा संबंध मानचित्र है। 500 K से 1.5 बिलियन आयामों तक के मॉडल पर सैकड़ों प्रयोगों पर, उन्होंने मॉडल के आकार को बढ़ाकर और प्रत्येक प्रकार की संतृप्ति को प्रशिक्षित करके परिणामों की लगातार निगरानी की: उन्होंने लगातार परिणामों की निगरानी की: प्रति पैरामीटर 3.6 बिट्स स्मरणजिसे वे एलएलएम मेमोरी क्षमता के मूल चरण के रूप में रिपोर्ट करते हैं।
टीम ने वास्तविक दुनिया के डेटासेट पर प्रशिक्षित मॉडल के लिए अपनी विधि भी लागू की। जब पाठ पर प्रशिक्षित किया जाता है, तो मॉडल ने स्मृति और सामान्यीकरण का संतुलन दिखाया।
छोटे डेटासेट ने अधिक यादों को बढ़ावा दिया, लेकिन जैसे -जैसे डेटासेट का आकार बढ़ता है, मॉडल सामान्यीकृत पैटर्न सीखने की ओर रुख करते हैं। संक्रमण को “डबल डिसेंट” नामक एक घटना द्वारा चिह्नित किया गया था, जहां सामान्यीकरण को लात मारने से पहले ऑपरेशन अस्थायी रूप से डूब जाता है।
यह अध्ययन यह भी जांचता है कि कैसे मॉडल सटीकता – Bfloat16 विपरीत फ्लोट 32 संगत प्रशिक्षण को प्रभावित करता है – सूची की क्षमता। उन्होंने पूर्ण 32-बिट सटीकता पर स्विच करते समय 3.51 से 3.83 बिट्स-पैरामीटर तक मामूली वृद्धि देखी। हालांकि, यह लाभ उपलब्ध बिट्स से दोगुना से बहुत कम है, जो उच्च परिशुद्धता से कम रिटर्न को इंगित करता है।
अद्वितीय डेटा को याद किए जाने की संभावना है
पेपर एक स्केलिंग कानून का प्रस्ताव करता है जो सदस्यता अनुमानों के हमलों की प्रभावशीलता के साथ मॉडल और डेटासेट आकार की क्षमता से संबंधित है।
ये हमले यह निर्धारित करने का प्रयास करते हैं कि क्या कोई विशेष डेटा बिंदु मॉडल के प्रशिक्षण सेट का हिस्सा था। अनुसंधान से पता चलता है कि इस तरह के हमले अविश्वसनीय हो जाते हैं क्योंकि डेटासेट का आकार बढ़ता है, यह तर्क का समर्थन करता है कि बड़े -स्केल प्रशिक्षण गोपनीयता के जोखिम को कम करने में मदद करते हैं।
जबकि कागज औसत-मामले के व्यवहार पर केंद्रित है, कुछ शोधकर्ताओं ने बताया है कि कुछ प्रकार के डेटा-जैसे या बहुत ही अनोखे या वाईएल राइटिंग-हग बनाना याद रखने के लिए अधिक संवेदनशील हो सकता है।
लेखक इस सीमा को स्वीकार करते हैं और इस बात पर जोर देते हैं कि उनकी विधि किनारे के मामलों के बजाय सामान्य रुझानों को प्रदर्शित करने के लिए डिज़ाइन की गई है।
एलएलएम समझ की अधिक मानवीय समझ की ओर बढ़ना
अनुस्मारक के सिद्धांत और मात्रात्मक परिभाषा को प्रस्तुत करके, अध्ययन डेवलपर्स और शोधकर्ताओं को भाषा मॉडल के व्यवहार का मूल्यांकन करने के लिए नए उपकरण प्रदान करता है। यह न केवल मॉडल पारदर्शिता के साथ, बल्कि एआई विकास, गोपनीयता और नैतिक मानकों के साथ भी मदद करता है। निष्कर्ष बताते हैं कि बड़े पैमाने पर भाषा मॉडल डेलो को प्रशिक्षित करते समय अधिक डेटा-और-सुरक्षित तरीके हो सकते हैं।
परिप्रेक्ष्य में कुल मॉडल को याद दिलाने के लिए:
- 500k- माता-पिता का मॉडल लगभग 1.8 मिलियन बिट्स या 225 kb डेटा को याद कर सकता है।
- 1.5 बिलियन पैरामीटर मॉडल लगभग 5.4 बिलियन बिट्स, या 675 मेगाबाइट कच्ची जानकारी रख सकता है।
- यह छवियों की तरह विशिष्ट फ़ाइल भंडारण के लिए तुलनीय नहीं है (जैसे, 6.6 एमबी अनलेडेड छवि लगभग 30 मिलियन बिट्स है), लेकिन स्वतंत्र पाठ पैटर्न में वितरित होने पर महत्वपूर्ण है।
मैं एक वकील या कानूनी विशेषज्ञ नहीं हूं, लेकिन मैं एआई प्रदाताओं और डेटा रचनाकारों/अधिकारों के मालिकों के बीच कई चल रहे मुकदमों में इस तरह के शोध का हवाला देने की उम्मीद करता हूं।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
