एलन इंस्टीट्यूट फॉर एआई रिलीज़ ओलमोक: एक उच्च प्रदर्शनी ओपन सोर्स टूलकिट को पीडीएफ और डॉक्यूमेंट इमेज को क्लीन एंड स्ट्रक्चर्ड प्लेन टेक्स्ट में बदलने के लिए डिज़ाइन किया गया

डिजिटल युग में भाषा मॉडल को आगे बढ़ाने के लिए उच्च गुणवत्ता वाले पाठ्य डेटा महत्वपूर्ण है। आधुनिक एआई सिस्टम उनकी सटीकता और दक्षता में सुधार करने के लिए टोकन ट्रिलियन के विशाल डेटासेट पर निर्भर करते हैं। जबकि यह डेटा इंटरनेट से है, पीडीएफ जैसे प्रारूपों का एक महत्वपूर्ण हिस्सा है, जो सामग्री निष्कर्षण के लिए अद्वितीय चुनौतियों की ओर जाता है। आसान पार्सिंग के लिए डिज़ाइन किए गए वेब पेजों के विपरीत, पीडीएफ तार्किक पाठ प्रवाह पर एक दृश्य लेआउट पसंद करता है, जिससे संगत पाठ्य अभ्यावेदन के लिए मुश्किल हो जाता है। पारंपरिक ऑप्ट पैटिकल कैरेक्टर रिकग्निशन (OCR) टूल्स ने इन चुनौतियों को पार करने की कोशिश की है, लेकिन उनकी सीमाओं ने भाषा मॉडल प्रशिक्षण के एक बड़े -स्केल अपनाने में बाधा उत्पन्न की है।

पीडीएफ प्रसंस्करण के साथ मुख्य बिंदु यह है कि ये दस्तावेज़ तार्किक पढ़ने के आदेश के बजाय दृश्य प्रस्तुति के लिए सबसे अच्छी जानकारी संग्रहीत करते हैं। कई पीडीएफ पाठ को अक्षर स्तर पर एन्कोड करते हैं, प्रत्येक वर्ण स्थिति और लाइन संरचना को संरक्षित किए बिना फ़ॉन्ट सुविधाओं को रिकॉर्ड करते हैं। यह मल्टी-कॉलम LUM लेआउट या एम्बेडेड टेबल, चित्र और समीकरणों के साथ दस्तावेज बनाता है, जिससे एक संगत कहानी को फिर से बनाना मुश्किल हो जाता है। इसके अलावा, स्कैन की गई पीडीएफ अतिरिक्त चुनौतियों का परिचय देती है, क्योंकि इसमें मशीन-पठनीय वर्णों के बजाय छवि प्रारूप में पाठ होता है। इस तरह के दस्तावेजों को संरचित और सार्थक सामग्रियों के लिए पाठ और दृश्य तत्वों को समझने के लिए विशेष उपकरणों की आवश्यकता होती है।

पीडीएफ से टेक्स्ट का रेक्ट डिश की समस्या से निपटने के लिए पहले कई दृष्टिकोण विकसित किए गए हैं। प्रारंभिक OCR प्रौद्योगिकियां जैसे कि Tesserect बुनियादी चरित्र मान्यता प्रदान करती है लेकिन जटिल लेआउट के साथ संघर्ष करती है। अधिक नवीनतम तरीकों में पाइपलाइन-आधारित सिस्टम शामिल हैं, जो कई मशीन-लर्निंग कार्यों जैसे अनुभागीय डिवीजन और टेबल वैधता में निष्कर्षण को जोड़ते हैं। इनमें ग्रोबिड और विला जैसे उपकरण शामिल हैं, जो कि पेपर्स के लिए डिज़ाइन किए गए हैं। दूसरी ओर, NAUGAT और थ्योरी 2.0 जैसे एंड-टू-एंड मॉडल ने पूरे पीडीएफ पेजों में डीप डांडा शिक्षा का उपयोग करके पठनीय पाठ में परिवर्तित करने की कोशिश की है। हालांकि, कई सिस्टम महंगे, अविश्वसनीय या बड़े -स्केल अनुप्रयोगों के लिए महंगे हैं।

एली के लिए एलन इंस्टीट्यूट के शोधकर्ता उदारपायथन टूलकिट, तार्किक रीडिंग ऑर्डर राइडर को संरक्षित करते हुए पीडीएफ को प्रभावी ढंग से संरचित सादे पाठ में बदलने के लिए डिज़ाइन किया गया एक खुला स्रोत। यह टूलकिट पाठ-आधारित और दृश्य जानकारी को एकीकृत करता है, जो पारंपरिक ओसीआर विधियों की तुलना में सर्वोत्तम निष्कर्षण सटीकता की अनुमति देता है। सिस्टम 7-एबी-पैरामीटर विजन लैंग्वेज मॉडल (वीएलएम) पर बनाया गया है, जो 100,000 से अधिक अद्वितीय दस्तावेजों से एकत्र किए गए 260,000 पीडीएफ पृष्ठों के डेटासेट पर अच्छी तरह से ट्यून किया गया है। पारंपरिक ओसीआर दृष्टिकोणों के विपरीत, जिसे पीडीएफ को केवल छवियों के रूप में माना जाता है, ओल्मोसर एम्बेडेड पाठ और इसकी स्थानिक स्थिति को उच्च-फेलिंग संरचनात्मक सामग्रियों के उत्पादन का लाभ देता है। सिस्टम बड़े पैमाने पर बैच प्रसंस्करण के लिए इष्टतम ptimized है, जो व्यापक दस्तावेज़ रिपॉजिटरी के लागत-कुशल रूपांतरण को सक्षम करता है। सबसे महत्वपूर्ण लाभ यह है कि GPT-4O की तुलना में 32 गुना सस्ता है, इसमें केवल $ 190 के लिए एक मिलियन पीडीएफ पृष्ठों को संसाधित करने की क्षमता है, जहां एक ही फ़ंक्शन की कीमत $ 6,200 होगी।

OLMCAR के पीछे मुख्य नवाचार दस्तावेज़ एंकरिंग है, एक तकनीक जो छवि-आधारित विश्लेषण के साथ पाठ्य मेटाडेटा को जोड़ती है। एंड-टू-एंड ओसीआर मॉडल के विपरीत, जो केवल बल्कि बल्कि छवियों पर निर्भर करते हैं, इस विधि में सीधे पीडीएफ के एम्बेडेड डेटा से पाठ्य तत्व होते हैं। यह उन्हें उनके संबंधित दृश्य अभ्यावेदन के साथ व्यवस्थित करता है। यह जटिल दस्तावेज़ डिजाइनों की पहचान करने वाले मॉडल की क्षमता को बढ़ाता है, त्रुटियों को कम करता है और समग्र पढ़ने की क्षमता में सुधार करता है। Ka rected सामग्री को एक मार्कडाउन का उपयोग करके स्वरूपित किया जाता है, जो संरचित तत्वों जैसे शीर्षकों, सूचियों, तालिकाओं और समीकरणों को बचाता है। इसके अलावा, सिस्टम निष्कर्षण की सटीकता में सुधार करने के लिए ठीक-ट्यूनिंग तकनीकों को नियोजित करता है, विशेष रूप से विभिन्न दस्तावेज़ लेआउट के लिए क्यूरेट किए गए डेटासेट। मॉडल प्रशिक्षण प्रक्रिया में चार-बैच आकार और 1E-6 की अनुकूली शिक्षा दर का उपयोग करके 10,000 ऑप्टिमेट ptmization उपाय शामिल हैं। ओल्मोसर को एक पूर्वानुमान ढांचे के साथ एकीकृत प्रबंधन के लिए डिज़ाइन किया गया है, जैसे कि वीएलएम और एएसजीएलंग।

सिस्टम अपने शिक्षक मॉडल के साथ 0.875 का कॉन्फ़िगरेशन स्कोर प्राप्त करता है, जो कि GPT -4O मिनी जैसे छोटे -पेर मॉडल को पार करता है। अन्य ओसीआर उपकरणों की तुलना में, ओल्मोसर लगातार सटीकता और दक्षता में प्रतियोगियों को धक्का देता है। जब मानव मूल्यांकन के अधीन, सिस्टम को प्रमुख पीडीएफ निष्कर्षण विधियों में उच्चतम ईएलओ रेटिंग प्राप्त हुई। इसके अलावा, जब ओल्मोक-एक्स्ट्रैक्टेड टेक्स्ट का उपयोग ओल्मो -2-1124-7 बी भाषा के मॉडल पर मध्य-प्रतिवाद के लिए किया गया था, तो कई एआई बेंचमार्क कार्यों की औसत सटीकता ने 1.3 प्रतिशत अंक की औसत सटीकता में सुधार किया। एआरसी चैलेंज और ड्रॉप जैसे डेटासेट ने विशिष्ट प्रभाव का लाभ दिखाया, जहां ओल्मोक-आधारित प्रशिक्षण डेटा भाषा मॉडल की समझ में महत्वपूर्ण सुधार में योगदान देता है।

ओलमोकर पर शोध में शामिल कुछ प्रमुख तकनीक::

  1. ओलमोक को 7 बिलियन-पर्वाभास विजन-लिंगुआ मॉडल पर बनाया गया है और 100,000 पीडीएफ में से 260,000 पृष्ठों पर ट्यून ठीक है, जो विभिन्न दस्तावेज़ प्रकारों में मजबूत निष्कर्षण सुनिश्चित करता है।
  2. दस्तावेज़ छवि-आधारित जानकारी के साथ एक पाठकीय मेटाडेटा संलग्न करने के लिए एंकरिंग का उपयोग करता है, संरचित सामग्री के लिए निष्कर्षण की सटीकता में काफी सुधार करता है।
  3. GPT-4E का उपयोग करते हुए, 6,200 की तुलना में, केवल 190DS LARE के लिए एक मिलियन PDF पृष्ठों की प्रक्रिया करता है, जिससे यह बड़े पैमाने पर अनुप्रयोगों के लिए 32 गुना अधिक लागत-कुशल हो जाता है।
  4. 0.875 का स्कोर प्राप्त करता है, छोटे मॉडल से अधिक है, और तार्किक रीडिंग ऑर्डर पुनर्निर्माण में सबसे अच्छी सटीकता दिखाता है।
  5. यह संरचित डेटा सत्यापन और बड़ी -स्केल प्रक्रिया में पारंपरिक OCR उपकरणों की ओर जाता है और मानव मूल्यांकन में उच्चतम ELO स्कोर है।
  6. एआरसी चैलेंज और ड्रॉप जैसे एआई बेंचमार्क डेटासेट पर 1.3 प्रतिशत अंक तक सटीकता बढ़ाकर भाषा मॉडल के प्रशिक्षण में सुधार करता है।
  7. वीएलएम और एएसजीएलंग जैसे अनुमान इंजनों के साथ संगत, विभिन्न हार्डवेयर सेटअप में लचीली परिनियोजन की अनुमति देता है।

जाँच करना प्रशिक्षण और टालसीट कोड और फेस स्टोरेज को गले लगाओ। इस शोध के लिए सभी क्रेडिट इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एक एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top