दृष्टि – भाषा के मॉडल डेलो (वीएलएम) छवि समझ और प्राकृतिक भाषा प्रक्रिया के बीच की दूरी को दूर करने का वादा करते हैं। फिर भी, व्यावहारिक चुनौतियां अपरिवर्तित हैं। पारंपरिक वीएलएम अक्सर छवि संकल्प की गहन जटिलता के साथ संघर्ष करता है, उपद्रव और दृश्य डेटा को सटीक पाठ्य विवरणों में परिवर्तित करने का उल्लेख करता है। उदाहरण के लिए, मॉडल सरल छवियों के लिए संक्षिप्त tions पुश का उत्पादन कर सकते हैं, लेकिन जब जटिल दृश्यों का वर्णन करते हैं, तो छवियों से पाठ पढ़ते हैं, या स्थानिक परिशुद्धता के साथ कई वस्तुओं को ढूंढते हैं। ये कमियां ऑप्ट VIPTL कैरेक्टर रिक्वेस्ट (OCR), डॉक्यूमेंट अंडरस्टैंडिंग और विस्तृत इमेज ए टियोन पुशिंग जैसे आवेदनों में एक सीमित वीएलएम अपनाने को अपनाती हैं। Google की नई रिलीज़ का उद्देश्य इन मुद्दों का सामना करना है, जो एक लचीला, बहु-कार्य दृष्टिकोण प्रदान करता है जो ठीक-ट्यूनिंग क्षमता को बढ़ाता है और दृष्टि-भाषा के कार्यों के प्रदर्शन में सुधार करता है। यह उन उद्योगों के लिए विशेष रूप से महत्वपूर्ण है जो कुछ छवि-से-पाठ अनुवादों पर आधारित हैं, जैसे कि स्वायत्त वाहन, चिकित्सा इमेजिंग और मल्टीमीडिया सामग्री विश्लेषण।
Google DeepMind ने Paligema 2 चौकियों के एक नए सेट का अनावरण किया है जो कि OCR, इमेज CP पुशिंग और अगले एप्लिकेशन में उपयोग के लिए दर्जी द्वारा बनाए गए हैं। ये चौकियाँ -3B से बड़े 28B आयाम -और खुले वजन मॉडल से अलग -अलग आकारों में आती हैं। सबसे आकर्षक विशेषताओं में से एक यह है कि ये मॉडल ट्रांसफॉर्मर पारिस्थितिकी तंत्र के साथ पूरी तरह से एकीकृत हैं, जिससे वे लोकप्रिय पुस्तकालयों द्वारा तुरंत सुलभ हो जाते हैं। चाहे आप एचएफ ट्रांसफॉर्मर एपीआई का उपयोग कर रहे हों या अधिक ठीक-ट्यूनिंग के लिए मॉडल के अनुकूल होने के लिए, नए चेकपॉइंट डेवलपर्स और शोधकर्ताओं के लिए एक प्रसिद्ध वर्कफ़्लो का वादा करते हैं। कई आयाम पैमानों की पेशकश और छवि संकल्प (224 × 224, 448 × 448, और 896 × 896) की सीमा का समर्थन करके, Google ने गारंटी दी है कि चिकित्सक अपने विशिष्ट कार्यों के लिए गणना दक्षता और मॉडल सटीकता के बीच सटीक संतुलन चुन सकते हैं।
तकनीकी विवरण और लाभ
इसके मूल में, Paligema 2 मिक्स का उत्पादन पूर्व-ट्रेंटेड Paligema 2 मॉडल पर किया जाता है, जो उन्नत Gemma 2 टेक्स्ट डिकोडर के साथ शक्तिशाली सिग्लिप इमेज एनकोडर के साथ खुद को एकीकृत करता है। “मिक्स” मॉडल एक अच्छा-ट्यून वेरिएंट है जिसे विज़न-लैंग्वेज कार्यों के संयोजन में एक मजबूत प्रदर्शन करने के लिए डिज़ाइन किया गया है। वे ओपन-एंड प्रॉम्प्ट फॉर्मेट्स का उपयोग करते हैं-जो “k tion pission {lang}”, “विवरण {lang}”, “ocr”, और अधिक-अधिक बढ़ाया लचीलापन देता है। यह ठीक-ट्यूनिंग दृष्टिकोण न केवल फ़ंक्शन-विशिष्ट प्रदर्शन में सुधार करता है, बल्कि एक आधार रेखा भी प्रदान करता है जो डाउनस्ट्रीम कार्यों के लिए अनुकूलित होने पर मॉडल की क्षमता को इंगित करता है।
आर्किटेक्चर एचएफ ट्रांसफॉर्मर और जेएक्स फ्रेमवर्क दोनों का समर्थन करता है, अर्थात, उपयोगकर्ता विभिन्न हार्डवेयर कॉन्फ़िगरेशन में विभिन्न सटीक प्रारूपों (जैसे, BFLOTT16, 4-बिट परिमाणीकरण) में काम कर सकते हैं। यह मल्टी-रिज़ॉल्यूशन क्षमता एक महत्वपूर्ण तकनीकी लाभ है, जो इनपुट रिज़ॉल्यूशन को एक ही बेस मॉडल मोटे कार्यों (जैसे आसान-से-टाउन पुशिंग) और ठीक-ठीक-ठीक कार्यों (जैसे में (जैसे में) (जैसे में) को समायोजित करके इनपुट रिज़ॉल्यूशन को समायोजित करके सबसे अच्छा है। OCR) बनाने की अनुमति देता है। इसके अलावा, इन चौकियों का खुला वजन अनुसंधान पाइपलाइनों में सहज एकीकरण को सक्षम बनाता है और स्वामित्व प्रतिबंधों के ओवरहेड के बिना तेजी से पुनरावृत्ति की सुविधा देता है।
प्रदर्शन अंतर्दृष्टि और बेंचमार्क परिणाम
Peligema 2 मिक्स मॉडल का प्रारंभिक बेंचमार्क आशाजनक है। सामान्य दृष्टि-भाषा के कार्यों, दस्तावेज़ समझ, स्थानीयकरण कार्यों और पाठ वैधता को बढ़ाने वाले परीक्षणों में, मॉडल चर अपने पूर्ववर्ती पर निरंतर प्रभाव सुधार दिखाते हैं। उदाहरण के लिए, जब एक विस्तृत छवि विवरण के साथ सौंपा जाता है, तो 3 बी और 10 बी दोनों सटीक और ननों की चौकियों के टायन्स का उत्पादन करते हैं – जटिल शहरी दृश्यों में आपत्तियों और स्थानिक संबंधों को ठीक से पहचानता है।
ओसीआर कार्यों में, फाइन-ट्यून मॉडल ने चुनौतीपूर्ण टिकट छवियों से सटीक रूप से पढ़ने की तारीखों, मूल्यों और अन्य विवरणों को पढ़कर मजबूत पाठ निष्कर्षण क्षमताओं को दिखाया। इसके अलावा, ऑब्जेक्ट ब्रीजर डिटेक्शन और सेपरेशन से जुड़े स्थानीयकरण कार्यों के लिए, मॉडल आउटपुट में विशिष्ट बाउंडिंग बी कोऑर्ड क्यू निर्देशांक और विभाजन मास्क शामिल हैं। इस आउटपुट का मूल्यांकन मैट्रिक्स की तरह है, जैसे कि सी टियोन के लिए साइडर स्कोर और विभाजन के लिए यूनियन (IUU) का चौराहा। परिणाम बढ़े हुए पैरामीटर की गणना करने के लिए मॉडल की क्षमता दिखाते हैं और रिज़ॉल्यूशन के साथ स्केल किए गए हैं: बड़े चौकियों को आमतौर पर उच्च प्रदर्शन की पेशकश की जाती है, हालांकि बढ़ी हुई कम्प्यूटेशनल संसाधन आवश्यकताओं की कीमत पर। यह स्केलेबिलिटी, दोनों मात्रात्मक बेंचमार्क और गुणात्मक वास्तविक दुनिया के उदाहरणों में उत्कृष्ट प्रदर्शन के साथ संयुक्त है, पेलिजीमा 2 एप्लिकेशन की एक विस्तृत सरणी के लिए एक बहुमुखी उपकरण के रूप में स्थिति को स्थिति में रखें।
अंत
Google के Paligema 2 की रिलीज़ में मिक्स चौकी को मिलाएं, दृष्टि-भाषा मॉडल के विकास में एक महत्वपूर्ण लक्ष्य दिखाते हैं। लंबे समय से चल रही चुनौतियों, या संकल्प संवेदनशीलता, संदर्भ-समृद्ध tion को पुश करने और मल्टी-टास्क अनुकूलनशीलता-मॉडल को एआई समाधानों को तैनात करने के लिए सशक्त बनाने के लिए, जो लचीला और बहुत कलाकार दोनों हैं। OCR के लिए, विस्तृत छवि विवरण, या ऑब्जेक्ट ब्रीजर जांच, पेलिगेमा 2 मिक्स का खुला वजन, ट्रांसफार्मर-संगत प्रकृति एक सुलभ मंच प्रदान करती है जिसे विभिन्न अनुप्रयोगों में एकीकृत किया जा सकता है। जैसा कि एआई समुदाय मल्टीमॉडल प्रसंस्करण की सीमाओं को आगे बढ़ा रहा है, इस तरह के उपकरण कच्चे दृश्य डेटा और सार्थक भाषा की व्याख्या के बीच की दूरी को दूर करने में महत्वपूर्ण होंगे।
जाँच करना गले के चेहरे पर तकनीकी विवरण और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 k+ ml सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एक एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए
Aswin AK MaviyechPost में एक परामर्श इंटर्न है। उन्हें खड़गपुर में भारतीय प्रौद्योगिकी में दोहरी डिग्री मिल रही है। यह डेटा अभिव्यक्तियों और पंखों और मशीन लर्निंग के बारे में उत्साही है, एक मजबूत शैक्षणिक पृष्ठभूमि और वास्तविक जीवन क्रॉस-डॉमन चुनौतियों को हल करने में अनुभव लाता है।
