आईबीएम और कशीदाकारी चेहरे के शोधकर्ताओं ने स्मोल्डोकलिंग जारी की: 256 मी

जटिल दस्तावेजों को संरचित डेटा में परिवर्तित करने से कंप्यूटर की कमी के क्षेत्र में महत्वपूर्ण चुनौतियां हैं। पारंपरिक दृष्टिकोण, जिसमें कनेक्शन सिस्टम या मॉडल के बहुत बड़े मॉडल शामिल हैं, अक्सर महत्वपूर्ण बाधाओं जैसे कि ठीक-ट्यूनिंग, कठिनाई, सामान्य मुद्दों, भ्रम और उच्च गणना लागत का सामना करते हैं। एनसेंबल सिस्टम, हालांकि विशिष्ट कार्यों के लिए कुशल, अक्सर प्रत्येक उप-कार्य के लिए हैंडक्राफ्ट पाइपलाइनों पर उनकी निर्भरता के कारण सामान्य करने में विफल रहता है। दूसरी ओर, मल्टीमॉडल फाउंडेशन के मॉडल, हालांकि शक्तिशाली, अक्सर विश्वसनीयता के मुद्दों जैसे कि कंप्यूटिंग गणना की लागत और भ्रम से पीड़ित होते हैं।

आईबीएम और कशीदाकारी चेहरे के शोधकर्ताओं ने हाल ही में इन चुनौतियों को संबोधित किया है, जो स्पष्ट रूप से 256 मीटर ओपी-सेरस विजन-लिंगुआ मॉडल (वीएलएम) के लिए अंतिम-से-अंत बहु-मॉडल दस्तावेज़ रूपांतरण कार्यों के लिए डिज़ाइन किए गए हैं। बड़े -स्केल मॉडल के विपरीत, स्मोल्ड ओसी कलिंग एक सुव्यवस्थित समाधान प्रदान करता है जो एक मॉडल द्वारा पूर्ण पृष्ठों को संसाधित करता है, जटिलता को कम करता है और गणना की मांग करता है। इसकी अल्ट्रा-कॉम्पैक्ट प्रकृति, केवल 256 मिलियन आयामों पर, यह महत्वपूर्ण वजन और संसाधन-कुशल बनाता है। शोधकर्ताओं ने एक सार्वभौमिक मार्कअप प्रारूप भी विकसित किया है, जिसे डक्टेग्स कहा जाता है, जो निश्चित रूप से पृष्ठ तत्वों, उनकी रचनाओं और खगोलीय संदर्भों को बहुत कॉम्पैक्ट और स्पष्ट रूप में प्राप्त करता है।

Sloldocling अपने आर्किटेक्चर बेस के रूप में चेहरे के कॉम्पैक्ट SmallVLM -256 को गले लगाता है, जो ऑप्टिमाइज़ टोकनकरण और आक्रामक दृश्य सुविधा संपीड़न विधियों द्वारा गणना की जटिलता में एक महत्वपूर्ण कमी दिखाता है। इसकी मुख्य शक्ति अभिनव DOCTAGS प्रारूप में निहित है, जो संरचनात्मक मार्कअप प्रदान करता है जो स्पष्ट रूप से दृश्य जानकारी जैसे कि दस्तावेज़ लेआउट, पाठ्य सामग्री और समीकरण, टेबल, कोड स्निपेट और चार्ट जैसे दृश्य जानकारी को अलग करता है। Slold OC कुशल प्रशिक्षण के लिए एक पाठ्यक्रम शिक्षा का उपयोग करता है, शुरू में अपने विज़न एनकोडर को ठंडा करता है और धीरे-धीरे इसे समृद्ध डेटासेट का उपयोग करके ठीक-ट्यूनिंग को शामिल करता है जो विभिन्न दस्तावेज़ तत्वों में दृश्य-स्मृति कॉन्फ़िगरेशन को बढ़ाता है। इसके अलावा, मॉडल की दक्षता 500 एमबी वीआरएएम के तहत उपभोग करते समय ग्राहक जीपीयू पर केवल 0.35 सेकंड प्रति पृष्ठ का उपभोग करते हुए, बिजली-तेज गति से पूरे दस्तावेज़ पृष्ठों को संसाधित करने की अनुमति देती है।

डिस्प्ले डेटा स्पष्ट रूप से वर्तमान प्रौद्योगिकियों में सबसे आगे बढ़ने वाले ओसी कलिंग की स्थिति है। विभिन्न दस्तावेज़ रूपांतरण कार्यों से जुड़े व्यापक बेंचमार्क परीक्षणों में, सुलगना ओसी कलिंग काफी बड़े प्रतियोगिता मॉडल की ओर जाता है। उदाहरण के लिए, QWN 2.5 VL (7B आयाम) और Naugat (350 मीटर आयाम) जैसे मॉडल की तुलना में, पूर्ण-पृष्ठ दस्तावेज़ OCR कार्यों में, काफी बेहतर सटीकता मेट्रिक्स, जैसे कि काफी बेहतर सटीकता मेट्रिक्स हासिल किया। यह समीकरण प्रतिलेखन में भी उत्तम है, जो कि GOT जैसे परिष्कृत मॉडल के साथ मिलान करता है, 0.95 F1-SCORE प्राप्त करता है। इसके अलावा, स्मोल्डोक्लिंग ने कोड स्निपेट सत्यापन में एक नया बेंचमार्क सेट किया है, जिसमें क्रमशः उच्च परिशुद्धता और 0.94 और 0.91 के स्कोर को याद किया गया है।

अन्य दस्तावेज़ OCR समाधानों में विभिन्न तत्वों को संभालने की क्षमता होती है, जो कि SOLLOLD OC Kaling सेट करता है, जिसमें कोड, चार्ट, समीकरण और विभिन्न लेआउट जैसे जटिल आइटम शामिल हैं। इसकी क्षमताएं पेटेंट, रूपों और पेशेवर प्रलेखन को मज़बूती से संभालने के लिए विशिष्ट प्रकार के कागजात से परे जाती हैं। DOCTAGS द्वारा व्यापक संरचित मेटाडेटा की पेशकश करके, Smoldocling दस्तावेज़ रूपांतरणों की डाउनस्ट्रीम उपयोगिता को बढ़ाते हुए, HTML या Markdown जैसे प्रारूपों में अंतर्निहित धुंधला को समाप्त करता है। इसका कॉम्पैक्ट आकार बड़े पैमाने पर बैच प्रसंस्करण को काफी कम संसाधन मांगों पर सक्षम बनाता है, जिससे पैमाने पर लागत प्रभावी तैनाती की सुविधा होती है।

अंत में, स्मोल्ड ओसी कलिंग रूपांतरण प्रौद्योगिकी में महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, यह दर्शाता है कि कॉम्पैक्ट मॉडल केवल महत्वपूर्ण कार्यों में प्रतिस्पर्धा कर सकते हैं, लेकिन बड़े -स्केल मॉडल को महत्वपूर्ण रूप से आगे बढ़ा सकते हैं। शोधकर्ताओं ने सफलतापूर्वक प्रदर्शन किया है कि कैसे लक्षित प्रशिक्षण, अभिनव डेटा वृद्धि और DOCTAGS मार्कअप प्रारूपों के आकार और जटिलता से जुड़ी पारंपरिक सीमाओं को समाप्त कर सकते हैं। स्मोल्डोकलिंग की रिहाई न केवल ओसीआर तकनीकों के लिए दक्षता और बहुमुखी प्रतिभा में नए मानक को निर्धारित करती है, बल्कि खुले तौर पर उपलब्ध डेटासेट और अत्यधिक कुशल, कॉम्पैक्ट मॉडल आर्किटेक्चर के माध्यम से समुदाय के लिए एक अमूल्य उपकरण भी प्रदान करती है। इस दस्तावेज़ की समझ महत्वपूर्ण प्रगति को दर्शाती है और उद्यम-स्तरीय अनुप्रयोगों और कामुकता के लिए व्यापक पहुंच के लिए आकर्षक नई संभावनाओं को खोलती है।


जाँच करना एक गले के चेहरे पर कागज और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

Scroll to Top