शोधकर्ताओं का उद्देश्य दृश्य वेतन पीढ़ी को एकीकृत करना और एक ही संरचना में समझाना है, मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस तेजी से बढ़ रहा है। परंपरागत रूप से, इन दोनों डोमेन को उनकी विशिष्ट आवश्यकताओं के कारण अलग से इलाज किया गया है। जेनेरिक मॉडल मॉडल को समझने के लिए उच्च-स्तरीय अर्थशास्त्र को प्राथमिकता देते हुए ठीक-दाने वाली छवि विवरण के उत्पादन पर ध्यान केंद्रित करते हैं। दोनों क्षमताओं को प्रभाव के साथ चुनौती से समझौता किए बिना प्रभावी रूप से एकीकृत किया जाता है। दृश्य कार्यों में अयस्क टोरेंटिव मॉडलिंग कर्षण, जैसा कि इन उद्देश्यों को एकजुट करने वाले एकीकृत टोकनर की मांग है।
इस क्षेत्र में प्रमुख चुनौतियों में से एक दृश्य टोकन में असमानता है। वर्तमान दृष्टिकोण अक्सर छवि भुगतान या समझ में एक विशेषज्ञ होते हैं, लेकिन दोनों कार्यों में एक साथ सर्वश्रेष्ठ प्रदर्शन करने में विफल होते हैं। VQVAE जैसे जेनेरिक मॉडल प्रभावी रूप से छवि विवरणों को एनकोड करते हैं, लेकिन पाठीय अभ्यावेदन के साथ दृश्य सुविधाओं को कॉन्फ़िगर करने के लिए संघर्ष करते हैं। इसके विपरीत, सिमेंटिक कॉन्फ़िगरेशन पर क्लिप एक्सल जैसे मॉडल, लेकिन उच्च गुणवत्ता वाली छवि पुनर्निर्माण के लिए आवश्यक ठीक-रसीला विवरण का अभाव है। यह गलतफहमी पैदा करता है, जिससे मल्टीमॉडल मॉडल विकसित करना मुश्किल हो जाता है जो छवियों को समान रूप से उत्पादन और व्याख्या कर सकता है। शोधकर्ता इस संघर्ष को हल करने के तरीकों की तलाश कर रहे हैं, लेकिन मौजूदा समाधानों में, मॉडल की जटिलता को अक्सर टोकन अंतर की मूल बातों के बिना बढ़ाया जाता है।
वर्तमान तरीके विभिन्न कार्यों के लिए एक अलग टोकनीकरण रणनीति को एकीकृत करके इस दूरी को पार करने का प्रयास करते हैं। कुछ मॉडलों में सार्थक स्थिरता को बढ़ाने के लिए टोकनीकरण उत्पन्न करने में परस्पर विरोधी शिक्षा होती है। हालांकि, ये तकनीकें प्रशिक्षण विरोधाभासों का प्रतिनिधित्व करती हैं जो मॉडल के प्रभाव को कम करती हैं। कई समाधान टोकन प्रतिनिधित्व क्षमता को बढ़ाने के लिए एक बड़े कोडबुक पर निर्भर करते हैं, लेकिन अत्यधिक कोडबुक विस्तार से अंडरक्रुटी और अशुद्धि की ओर जाता है। एकीकृत दृष्टिकोण की कमी मल्टीमॉडल शिक्षा में प्रगति में बाधा डालती है, एक प्रभावी टोकनर की आवश्यकता को रोशन करती है जो अनावश्यक गणना के ओवरहेड को जोड़ने के बिना क्षमता को संतुलित करने और समझने की क्षमता को संतुलित करती है।
हांगकांग विश्वविद्यालय, बेडेंटन्स इंक। और हूज़ोंग यूनिवर्सिटी ऑफ साइंस एंड टेक्नोल में एक शोध टीम। एक स्वतंत्र दृश्य टोकनर में, जो दृश्य पीढ़ी और समझ को एकजुट करने के लिए डिज़ाइन किया गया है। उनकी विधि मल्टी-कॉडबुक मात्रा का ठहराव के माध्यम से मौजूदा दृष्टिकोणों की सीमाओं को समाप्त करती है, जो कि इष्टतम ptimization अस्थिरता-स्ट्रेग्टी संरचनाओं के कारण टोकन परिचय को बढ़ाता है, जो स्वतंत्र उप-कोड पुस्तक में दृश्य सुविधाओं का बेहतर प्रतिनिधित्व करने के लिए वेक्टर परिमाणीकरण को सक्षम करता है। एक सीमित स्वतंत्र टोकन क्षमता के मूल बाधा को संबोधित करते हुए, UNITC सबसे अच्छी छवि पुनर्निर्माण और सिमेंटिक कॉन्फ़िगरेशन प्रदर्शनी है।
इकाई की इकाई एकीकृत प्रशिक्षण पैटर्न का उपयोग एकीकृत पुनर्निर्माण और विरोधाभासी शिक्षा के उद्देश्यों का उपयोग करती है। मुख्य नवाचार मल्टी-कॉड बुक क्वांटाइजेशन में है, जहां विज़ुअल टोकन को एक बड़े के बजाय कई स्वतंत्र उप-कोड पुस्तकों में विभाजित किया गया है। यह गणना की दक्षता बनाए रखते हुए प्रतिनिधित्व के स्थान को बढ़ाता है। यूनिट में एक ध्यान -आधारित कारक भी शामिल है, जो संपीड़न के दौरान सिमेंटिक जानकारी को संरक्षित करके टोकन अभिव्यक्ति को बढ़ाता है। पारंपरिक वेक्टर परिमाणीकरण के विपरीत, यह दृष्टिकोण क्षति के विवाद को रोकता है और टोकन के उपयोग में सुधार करता है, यह सुनिश्चित करता है कि दृश्य सुविधाओं को उत्पन्न करने और भेदभावपूर्ण कार्यों के लिए सटीक रूप से एन्कोड किया गया है। शोधकर्ताओं ने Datcoplaem -1b पर इकाइयों को प्रशिक्षित किया, जिनमें डेटासेट में 1.28 बिलियन इमेज -टेक्स्ट जोड़े हैं, जिसमें 256 × 256 में पुनर्व्यवस्थित छवियां संकल्प के साथ हैं। टोकनकर्ता का दो शर्तों के तहत परीक्षण किया गया था: एक pritained क्लिप वजन की शुरुआत के साथ और बिना। दोनों मामलों में उच्च शून्य-शॉट टोट सटीकता प्राप्त करने के लिए एक मॉडल की क्षमता इसके एकीकृत डिजाइन की प्रभावशीलता को दर्शाती है।
प्रायोगिक मूल्यांकन की इकाई मौजूदा टोकनर पर यूनिट की उत्कृष्टता की पुष्टि करती है। इमेजनेट पर, यूनिट 0.87 की तुलना में एसडी-वीएई के लिए 0.38 का आरएफआईडी प्राप्त करता है, जो पुनर्निर्माण की गुणवत्ता में एक महत्वपूर्ण सुधार दिखाता है। इसके बाद, यह क्लिप के 76.2%से 78.6%के शून्य-शॉट टी वर्गीकरण की सटीकता को रिकॉर्ड करता है। यह मॉडल विजुअल प्रश्न-वाटर बेंचमार्क में भी सबसे अच्छा है, जिसमें सटीकता में 3.3% विला-यू के महत्वपूर्ण सुधार और एमएमई-धारणा स्कोर पर 112 अंकों का एक महत्वपूर्ण सुधार दिखाया गया है। ये परिणाम छवि पीढ़ी और प्रभावी ढंग से समझने के लिए इकाई की क्षमता को उजागर करते हैं। जबकि मल्टीमॉडल का परीक्षण बड़े -लैंगुएज मॉडल डेलो पर किया जाता है, यूनिट ओके पारंपरिक vqvae टोकनर से बेहतर प्रदर्शन करती है और स्वतंत्र और निरंतर टोकन दृष्टिकोण के बीच की दूरी को काफी कम कर देती है। यूनिट ओके की सफलता बताती है कि मल्टी-कोडबुक परिमाणीकरण द्वारा एक स्वतंत्र टोकन परिचय को बढ़ाना मल्टीमॉडल लर्निंग फ्रेमवर्क को एकीकृत करने के लिए एक व्यावहारिक उपाय है।
यूनिट ओके दृश्य वेतन पीढ़ी और समझ के समेकन में बहुत प्रगति दिखाता है। मल्टी-कॉडबुक परिमाणीकरण द्वारा टोकनीकरण बॉटलेनैक्स का समाधान अधिक प्रभावी मल्टीमॉडल शिक्षा को सक्षम बनाता है। अनुसंधान से पता चला है कि जब ठीक से ऑप्टिमेट को ptimized किया जाता है, तो स्वतंत्र टोकनकरण टोकनकरण विधियों का सामना कर सकता है या पार कर सकता है। यह नवाचार मल्टीमॉडल एआई में भविष्य के सुधारों की नींव देता है, जो बड़े दृष्टि-लिंगुआ मॉडल के लिए एक स्केलेबल समाधान प्रदान करता है। मजबूत प्रयोगात्मक परिणाम भविष्य में अधिक उन्नत मल्टीमॉडल मॉडल के लिए मार्ग प्रशस्त करते हुए, दृश्य वेतन पीढ़ी और समझ के बीच सहज एकीकरण को प्राप्त करने के लिए एक आशाजनक दृष्टिकोण के रूप में इकाइयों को मान्य करते हैं।
जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एकीकृत करने वाला एक उन्नत प्रणाली

निखिल मार्केटकपोस्ट में एक इंटर्न कंसल्टेंट है। वह खड़गपुर में भारतीय संगठन की प्रौद्योगिकी में सामग्री में दोहरी डिग्री प्राप्त कर रहा है। निखिल एआई/एमएल उत्साही है जो हमेशा बायोमेट्रियल और बायोमेडिकल विगल्स जैसे क्षेत्रों में आवेदन पर शोध करता है। भौतिक अभिव्यक्ति में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति और योगदान की संभावना की तलाश कर रहा है।
🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)