आर्किटेरियन एसएई: बड़े विज़न मॉडल में वैचारिक निष्कर्षण के लिए अनुकूली और स्थिर शब्दकोश शिक्षा

सिंथेटिक न्यूरल नेटवर्क (एएनएन) ने बेहतरीन प्रदर्शन के साथ कंप्यूटर विजन में क्रांति ला दी है, लेकिन इसका “ब्लैक-बी” क्यू “प्रकृति पारदर्शिता, देयता और नियामक अनुपालन के साथ डोमेन में महत्वपूर्ण चुनौतियां पैदा करता है। इन प्रणालियों की अस्पष्टता महत्वपूर्ण अनुप्रयोगों में उनके गोद लेने में बाधा डालती है जहां निर्णय -प्रक्रियाओं को समझना आवश्यक है। विजय ने एनिनो इन मॉडलों के आंतरिक तरीकों को समझने के लिए उत्सुक हैं और प्रभावी डिबगिंग, मॉडल सुधार और तंत्रिका विज्ञान के साथ संभावित समानांतर का पता लगाने के लिए इस अंतर्दृष्टि का उपयोग करना चाहते हैं। इन कारकों में एक समर्पित क्षेत्र के रूप में आर्टिफिशियल इंटेलिजेंस (XAI) के तेजी से विकास को उत्प्रेरक किया गया है। यह ANS की व्याख्या पर ध्यान केंद्रित करता है, मशीन खुफिया और मानव समझ के बीच की दूरी को दूर करता है।

XAI दृष्टिकोणों के बीच अवधारणा-आधारित विधियाँ ANS के जटिल सक्रियण पैटर्न में तर्कसंगत दृश्य अवधारणाओं को प्रकट करने के लिए शक्तिशाली रूपरेखा हैं। हाल के शोध एक शब्दकोश सीखने की समस्याओं के रूप में निष्कर्ष निकालते हैं, जहां सक्रियण उच्च-आयामी, बिखरे हुए “अवधारणा स्थान” का एक नक्शा है जो अधिक व्याख्यात्मक है। गैर-नकारात्मक मैट्रिक्स कारक (एनएमएफ) और के-माइन्स जैसी तकनीकों का उपयोग मूल सक्रियण को सटीक रूप से पुनर्निर्माण के लिए किया जाता है, जबकि बिखरे हुए ऑटोनकोडर्स (एसएई) ने हाल ही में शक्तिशाली विकल्पों के रूप में प्रसिद्ध प्राप्त किया है। SAEs बिखरे हुए और पुनर्निर्माण की गुणवत्ता के बीच एक प्रभावशाली संतुलन प्राप्त करते हैं लेकिन अस्थिरता से ग्रस्त हैं। एक ही डेटा पर एक ही SAE को प्रशिक्षित कर सकते हैं, सार्थक विश्लेषण के लिए उनकी विश्वसनीयता और व्याख्या को सीमित करते हुए, विभिन्न अवधारणा शब्दकोशों का उत्पादन कर सकते हैं।

हार्वर्ड यूनिवर्सिटी, यॉर्क यूनिवर्सिटी, सीएनआर और गूगल डीपमाइंड के शोधकर्ताओं ने अस्थिरता के मुद्दों पर विचार करने के लिए दो उपन्यास प्रकार के बिखरे हुए ऑट टोनकोडर का प्रस्ताव किया है: आर्किटिपल-साए (ए-सा) और इसके आराम समकक्ष (आरए-साए)। ये दृष्टिकोण अवधारणा निष्कर्षण में स्थिरता और स्थिरता बढ़ाने के लिए पुरातात्विक विश्लेषण पर निर्माण करते हैं। ए-एस मॉडल प्रत्येक शब्दकोश परमाणु को प्रशिक्षण डेटा के बाहरी पतवार के भीतर सख्ती से बने रहने में बाधा डालता है, जो एक ज्यामितीय बाधा को लागू करता है जो विभिन्न प्रशिक्षण रन में स्थिरता में सुधार करता है। आरए-एसए इस संरचना को छोटी विश्राम की अवधि को शामिल करके विस्तारित करता है, जिससे स्थिरता बनाए रखते हुए बाहरी पतवार से थोड़ा विचलन के मॉडलिंग लचीलेपन की अनुमति मिलती है।

शोधकर्ताओं ने पांच विज़न मॉडल डेल्स का उपयोग करके अपने दृष्टिकोण का मूल्यांकन किया: DINOV 2, SIGLIP, VIT, CONNEX और RESNET50, सभी TIMM लाइब्रेरी से प्राप्त किए गए। वे सुविधा के आकार के साथ अत्यधिक शब्दकोश बनाते हैं (जैसे, डिनोव 2 से 768 × 5 अवधारणा के लिए, और अवधारणा के लिए 2048 × 5, अवधारणा प्रतिनिधित्व के लिए पर्याप्त क्षमता प्रदान करते हैं। मॉडल पूरे इमेजनेट डेटासेट को प्रशिक्षित करते हैं, लगभग 1.28 मिलियन छवियों को संसाधित करते हैं जो कॉनएक्स के लिए प्रति युग 60 मिलियन से अधिक टोकन और डिनोव 2, 50 उम्र के लिए 250 मिलियन से अधिक टोकन का उत्पादन करते हैं। इसके अलावा, आरए-सी ने प्रयोगों में एक निरंतर बिखरे हुए स्तर को बनाए रखने के लिए एक टॉपके एसएई आर्किटेक्चर बनाया है। मैट्रिक्स काउंट में 32,000 सेंट्रोइड्स में पूरे डेटासेट के के-माइन क्लस्टरिंग शामिल हैं।

परिणाम पारंपरिक दृष्टिकोण और प्रस्तावित तरीकों के बीच एक महत्वपूर्ण प्रदर्शन अंतर दिखाते हैं। शास्त्रीय शब्दकोश लर्निंग एल्गोरिदम और मानक एसएई तुलनात्मक प्रदर्शन दिखाता है, लेकिन परीक्षण किए गए डेटासेट में सही जनरेटिंग कारकों को सटीक रूप से हासिल करने के लिए संघर्ष करता है। इसके विपरीत, RA-SA अंतर्निहित ऑब्जेक्ट Burjet वर्गों के मूल्यांकन में उपयोग किए जाने वाले सभी सिंथेटिक डेटासेट में उच्च सटीकता प्राप्त करता है। गुणात्मक परिणामों में, आरए-एसए सार्थक अवधारणाओं को उजागर करता है, जिसमें मौखिक में एक पत्र-आधारित अवधारणाएं होती हैं, जिसमें संदर्भ-आधारित अवधारणाएं, जैसे “नाई” और फूलों की पंखुड़ियों के साथ। इसके अलावा, यह टॉपके-सेस की तुलना में वर्ग के अंतर में अधिक संरचित सीखता है, विशेषताओं को अलग करने के बजाय विभिन्न अवधारणाओं में खरगोशों, चेहरे और पंजे जैसी सुविधाओं को अलग करता है।

अंत में, शोधकर्ताओं ने दो प्रकार के बिखरे हुए ऑटो टोनकोडर्स पेश किए हैं: ए-सा और इसके आराम समकक्ष आरए-साई। ए-एसएए शब्दकोश प्रशिक्षण डेटा के बाहरी समाधान के लिए अणुओं को ब्लॉक करता है और अभिव्यंजक शक्ति को संरक्षित करते हुए स्थिरता बढ़ाता है। उसके बाद, आरए-एसए बड़े पैमाने पर दृष्टि मॉडल में सार्थक अवधारणा का पता लगाने के साथ पुनर्निर्माण की गुणवत्ता को प्रभावी ढंग से समायोजित करता है। इन दृष्टिकोणों का मूल्यांकन करने के लिए, टीम ने पहचान सिद्धांत से प्रेरित उपन्यास मैट्रिक्स और बेंचमार्क विकसित किया, जो शब्दकोश की गुणवत्ता और अवधारणा को फैलाने के लिए एक व्यवस्थित संरचना प्रदान करता है। कंप्यूटर विजन से परे, ए-एस एलएलएम और अन्य संरचित डेटा डोमेन सहित व्यापक तरीकों में अधिक विश्वसनीय अवधारणाओं के लिए नींव स्थापित करता है।


जाँच करना कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड


साजद अंसारी आईआईटी खड़गपुर से अंतिम वर्ष की स्नातक हैं। एक तकनीकी उत्साही के रूप में, यह एआई तकनीकों और उनके वास्तविक दुनिया के प्रभावों के प्रभाव पर ध्यान केंद्रित करके एआई के व्यावहारिक अनुप्रयोगों पर विचार करता है। इसका उद्देश्य स्पष्ट रूप से और सुलभ जटिल एआई अवधारणाओं का है।

Dr. Ashish V

Dr. Ashish V

Leave a Replay

About Me

I am a Ph.D. holder and a dedicated blogger with a focus on Artificial Intelligence, technology education, and emerging tech challenges. With a strong academic foundation and extensive research experience, I am committed to delivering insightful content that bridges the gap between cutting-edge technology and practical understanding. My writing explores the latest advancements in AI, addresses critical tech issues, and provides in-depth analysis to keep readers informed and empowered in the rapidly evolving digital landscape.

Recent Posts