Google ने दीपमाइंड रिसर्च सिग्लिप 2 प्रकाशित की: नए बहुभाषी दृष्टि-भाषा एनकोडर का परिवार बेहतर अर्थपूर्ण समझ, स्थानीयकरण और जीए एनएसई सुविधाओं के साथ

आधुनिक दृष्टि-भाषा के मॉडल के मॉडल बदल गए हैं कि हम दृश्य डेटा को कैसे संसाधित करते हैं, हालांकि वे अक्सर कम हो जाते हैं जब यह ठीक-ठाक स्थानीयकरण और गा एनसे विशेषता निष्कर्षण की बात आती है। कई पारंपरिक मॉडल उच्च-स्तरीय सार्थक समझ और शून्य-शॉट टी वर्गीकरण पर ध्यान केंद्रित करते हैं लेकिन विस्तृत स्थानिक तर्क के साथ संघर्ष करते हैं। ये सीमाएँ उस एप्लिकेशन को प्रभावित कर सकती हैं, जिसमें विशिष्ट स्थानीयकरण की आवश्यकता होती है, जैसे कि दस्तावेज़ विश्लेषण या ऑब्जेक्ट buject siption।

इसके अलावा, मॉडल जो मुख्य रूप से विपरीत क्षति पर निर्भर करते हैं, शुद्ध स्थानिक संकेतों के लिए आवश्यक कार्यों में अच्छा प्रदर्शन नहीं करते हैं। कई भाषाओं का समर्थन करने और विभिन्न सांस्कृतिक संदर्भों में निष्पक्ष अभ्यावेदन सुनिश्चित करने में भी एक चुनौती है। तकनीकी रूप से मजबूत और सामाजिक रूप से जिम्मेदार दोनों मॉडल बनाने के लिए इन मुद्दों पर विचार करना महत्वपूर्ण है।

Google डीपमाइंड रिसर्च सिग्लिप 2 प्रकाशित करता है: नए बहुभाषी दृष्टि-भाषा एन्कोडर्स का परिवार बेहतर अर्थपूर्ण समझ, स्थानीयकरण और जीए एनएसई सुविधाओं के साथ। Siglip 2 मूल छवि-पाठ प्रशिक्षण उद्देश्य को आत्मरक्षा और नकाबपोश भविष्यवाणियों के साथ एक tion को धक्का-मुक्की-आधारित pritraining को मिलाकर विस्तारित करता है। यह संयोजन स्थानीय, विस्तृत विशेषताओं को पकड़ने के लिए समग्र शब्दार्थ प्रस्तुति और मॉडल की क्षमता दोनों को बढ़ाने के लिए डिज़ाइन किया गया है। प्रशिक्षण प्रक्रिया में बहु-भाषी डेटा-मुख्य रूप से अंग्रेजी-अंग्रेजी और उत्कृष्ट परिणामों की छोटी अंग्रेजी-अंग्रेजी-अंग्रेजी सामग्रियों को सुनिश्चित करने के लिए डी-बेइंग विधियों का एक संयोजन शामिल है।

तकनीकी विवरण और लाभ

इसके मूल में, सिग्लिप 2 को विज़न ट्रांसफॉर्मर के आधार पर बनाया गया है, जो पिछले संस्करणों के साथ पिछड़े स्थिरता को सुनिश्चित करता है। इसका मतलब यह है कि उपयोगकर्ता अपने पूरे सिस्टम को ओवरहाल करने की आवश्यकता के बिना मॉडल के वजन को बदल सकते हैं। यह मॉडल पारंपरिक परस्पर विरोधी क्षति के बजाय SIGM OID EID नुकसान का उपयोग करता है, जो वैश्विक और स्थानीय दोनों विशेषताओं की अधिक संतुलित शिक्षा के लिए अनुमति देता है।

SIGM OID ED क्षति के अलावा, Siglip 2 में डिकोडर-आधारित क्षति शामिल है। यह छवि tion पुशिंग और क्षेत्र-विशिष्ट स्थानीयकरण जैसे कार्यों को सीखने में मदद करती है, अंततः Ga ense भविष्यवाणी कार्यों में बेहतर प्रदर्शन के लिए अग्रणी होती है। मॉडल डेल के डिजाइन में छवि और पाठ दोनों घटकों से पूलिंग सुविधाओं के लिए मानचित्र का प्रमुख भी शामिल है, यह सुनिश्चित करता है कि सीखा हुआ प्रतिनिधित्व दोनों मजबूत और विस्तृत हैं। एक अन्य महत्वपूर्ण तकनीकी पहलू NAFX संस्करण की शुरूआत है। NAFLX एकल चेकपॉइंट का उपयोग करके विभिन्न प्रस्तावों पर छवियों को संसाधित करके मूल पहलू अनुपात का समर्थन करता है। यह विधि छवि की स्थानिक जानकारी की अखंडता को बनाए रखने में मदद करती है, जो विशेष रूप से उन कार्यों में महत्वपूर्ण है जहां पहलू अनुपात परिणाम को प्रभावित कर सकता है, जैसे कि दस्तावेज़ समझ या ओसीआर।

इसके अलावा, आत्म-दूरी और नकाबपोश पूर्वानुमानों का उपयोग स्थानीय सुविधाओं की गुणवत्ता में सुधार करता है। नकाबपोश पैच की भविष्यवाणी करने के लिए मॉडल को प्रशिक्षित करके, यह सूक्ष्म विवरणों पर ध्यान केंद्रित करना सीखता है जो विभाजन और गहराई जैसे कार्यों के लिए महत्वपूर्ण हैं। यह सावधान डिजाइन भी छोटे मॉडल को बढ़ाया आसवन तकनीकों के माध्यम से बेहतर संचालन प्राप्त करने की अनुमति देता है।

परिणाम, डेटा अंतर्दृष्टि और मूल्यांकन

कागज के व्यावहारिक परिणाम सिग्लिप 2 में की गई तकनीकी प्राथमिकताओं का समर्थन करते हैं। कई बेंचमार्क पिछले मॉडलों में निरंतर सुधार दिखाते हैं, जिसमें शून्य-शॉट टी वर्गीकरण परीक्षण ऑन-इमैग्नेट, ईसीटी बजटनेट और इमेजनेट रियल शामिल हैं। लाभ विशेष रूप से उन कार्यों में स्पष्ट हैं जो विस्तृत स्थानिक समझ की मांग करते हैं।

बहुभाषी छवि के लिए -टेक्स्ट रिटर्न का मूल्यांकन क्रोस्मोडल -3600 पर किया जाता है, सिग्लिप 2 बहुभाषी डेटा के लिए विशेष रूप से डिज़ाइन किए गए मॉडल के साथ प्रतिस्पर्धी रूप से करता है। इसी समय, यह अंग्रेजी-केंद्रित कार्यों पर एक मजबूत प्रदर्शन को बनाए रखता है। यह संतुलन डेटा वक्रता और प्रशिक्षण विधियों द्वारा सावधानीपूर्वक प्राप्त किया जाता है जो सार्थक समृद्धि और स्थानीयकरण दोनों पर जोर देते हैं। GA ENSE पूर्वानुमान कार्य, जैसे कि सिमेंटिक स्प्लिट, गहराई का अनुमान और सामान्य पूर्वानुमान, मॉडल के लाभ फिर से स्पष्ट हैं। जब कैट-सैग जैसे एक ओपन-प्रोकेबुलरी सेगमेंट फ्रेमवर्क पर परीक्षण किया जाता है, तो सिग्लिप 2 लगातार अपने पूर्ववर्ती और अन्य खुले वजन मॉडल की तुलना में उच्च औसत चौराहे-ओवर-यूनियन (एमआईयू) स्कोर की रिपोर्ट करता है। ये परिणाम छवियों में जटिल विवरण प्राप्त करने के लिए मॉडल की क्षमता की इच्छा हैं।

स्थानीयकरण के काम भी मॉडल के शुद्ध प्रशिक्षण से लाभान्वित होते हैं। उदाहरण के लिए, अभिव्यक्ति और खुली-व्यवसायी जांच के स्पष्टीकरण में, प्रभाव सुधार स्पष्ट है। मॉडल न केवल पाठ और छवि को अधिक प्रभावी ढंग से आयोजित करता है, बल्कि पक्षपाती संगठनों के प्रति कम रवैया भी दिखाता है। प्रतिनिधित्व पूर्वाग्रह के मूल्यांकन में, SIGLIP 2 प्रशिक्षण के दौरान उपयोग की जाने वाली डी-बीइंग तकनीकों के महत्व को दर्शाता है, अनुचित वस्तु चोरी-से-जीग संघों में एक महत्वपूर्ण कमी दिखाती है। अनुसंधान तुलनात्मक तालिकाओं और आँकड़ों की एक श्रृंखला प्रस्तुत करता है जो इन अद्यतनों का विस्तार करते हैं। डेटा बताता है कि जैसे -जैसे मॉडल का आकार बढ़ता है, इस प्रशिक्षण वृद्धि के लाभ अधिक स्पष्ट हो जाते हैं। विभिन्न कॉन्फ़िगरेशन और संकल्पों में, मॉडल का प्रदर्शन मजबूत रहता है, जिससे यह अनुसंधान और व्यावहारिक कार्यक्रमों दोनों के लिए एक मजबूत उम्मीदवार है।

अंत

अंत में, SIGLIP 2 दृष्टि-भाषा मॉडल के विकास में एक मापा और अच्छी तरह से इंजीनियर कदम प्रस्तुत करता है। यह अच्छी तरह से ज्ञात चुनौतियों जैसे कि फाइन-वैंड स्थानीयकरण, जीए एनसे पूर्वानुमान और बहुभाषी समर्थन जैसी प्रसिद्ध चुनौतियों को खत्म करने के लिए विचारशील नवाचारों के साथ स्थापित तकनीकों को एकीकृत करता है। SIGLIP 2 दृश्य डेटा की अधिक संतुलित प्रस्तुति प्राप्त करता है, पूर्ण विपरीत क्षति से दूर जा रहा है और अतिरिक्त आत्मरक्षा उद्देश्यों को शामिल करता है। नेफ्लेक्स संस्करण द्वारा मूल पहलू अनुपात को ध्यान से संचालित करते हुए, यह वास्तविक दुनिया के विचारों में इसके लागू सुधार में सुधार करता है जहां छवि की अखंडता महत्वपूर्ण है।

बहुभाषी डेटा और डी-बज़िंग उपायों को शामिल करने से विभिन्न संदर्भों में जागरूकता दिखाई देती है जिसमें ये मॉडल काम करते हैं। यह दृष्टिकोण न केवल विभिन्न बेंचमार्क में प्रदर्शन में सुधार करता है, बल्कि यह भी सुनिश्चित करता है कि मॉडल एआई में व्यापक नैतिक विचारों के साथ बेहतर है। कुल मिलाकर, SIGLIP 2 की रिहाई विजन-भाषा अनुसंधान समुदाय के लिए एक आशाजनक विकास है। यह एक बहुमुखी, पिछड़े संगत संरचना प्रदान करता है जिसे आसानी से मौजूदा प्रणालियों में एकीकृत किया जा सकता है। विभिन्न प्रकार के मॉडल कार्यों में विश्वसनीय संचालन देने की क्षमता – जब नेस दर्द और सामग्री बनाए रखते हुए – इस क्षेत्र में भविष्य के अनुसंधान के लिए एक विचारशील बेंचमार्क देखता है।


    जाँच करना कागज पर मॉडल, GitHub पेज और गले चेहरे। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 k+ ml सबमिटेड

    अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए


    Aswin AK MaviyechPost में एक परामर्श इंटर्न है। उन्हें खड़गपुर में भारतीय प्रौद्योगिकी में दोहरी डिग्री मिल रही है। यह डेटा अभिव्यक्तियों और पंखों और मशीन लर्निंग के बारे में उत्साही है, एक मजबूत शैक्षणिक पृष्ठभूमि और वास्तविक जीवन क्रॉस-डॉमन चुनौतियों को हल करने में अनुभव लाता है।

Scroll to Top