आर्टिफिशियल इंटेलिजेंस के क्षेत्र में, ग्राफिकल यूजर इंटरफेस (जीयूआई) के साथ नेविगेट करने और संपर्क करने के लिए बड़े भाषा मॉडल (एलएलएम) को सक्षम करना एक महत्वपूर्ण चुनौती है। जब एलएलएम पाठीय डेटा को संसाधित करने में माहिर होते हैं, तो वे अक्सर आइकन, बटन और मेनू जैसे दृश्य तत्वों की व्याख्या करते समय कठिनाइयों का सामना करते हैं। यह सीमा उन कार्यों में उनकी प्रभावशीलता को प्रतिबंधित करती है जिन्हें सॉफ्टवेयर फैटवेयर इंटरफेस के साथ सहज बातचीत की आवश्यकता होती है, जो मुख्य रूप से दृश्य हैं।
इस मुद्दे पर विचार करने के लिए, Microsoft ने Omniper V2 को पेश किया है, जो LLMS की GUI समझ क्षमताओं को बढ़ाने के लिए डिज़ाइन किया गया एक उपकरण है। OM MyNiperser V2 UI स्क्रीनशॉट को संरचित, मशीन-पठनीय डेटा में बदल देता है, LLM को विभिन्न सॉफ़्टवेयर FATWARE इंटरफेस को अधिक प्रभावी ढंग से समझने और संपर्क करने में सक्षम बनाता है। इस विकास का उद्देश्य पाठ्य और दृश्य डेटा प्रसंस्करण के बीच की दूरी को दूर करना है, जिससे अधिक व्यापक एआई अनुप्रयोगों की सुविधा हो।
OM Muniperser V2 दो मुख्य घटकों द्वारा काम करता है: C tion की जाँच और धक्का। चेक मॉड्यूल योलोव 8 मॉडल का फाइन-ट्यून संस्करण बटनों और आइकन जैसे स्क्रीनशॉट में इंटरैक्टिव तत्वों की पहचान करने के लिए काम करता है। इसी समय, Tion पुशिंग मॉड्यूल इन तत्वों के लिए वर्णनात्मक लेबल बनाने के लिए ठीक -टक्ड फ्लोरेंस -2 बेस मॉडल का उपयोग करता है, जो इंटरफ़ेस के भीतर उनके कार्यों का संदर्भ प्रदान करते हैं। यह संयुक्त दृष्टिकोण एलएलएम को जीयूआई की विस्तृत समझ बनाने की अनुमति देता है, जो सटीक बातचीत और कामकाज के लिए आवश्यक है।
OM Maniperser V2 में महत्वपूर्ण सुधार इसके प्रशिक्षण डेटासेट में वृद्धि है। टूल को आइकन c tion ptions और ग्राउंडिंग डेटा के अधिक व्यापक और शुद्ध सेट पर प्रशिक्षित किया गया है, जो व्यापक रूप से वेब पेजों और उपयोग किए जाने वाले अनुप्रयोगों से उपयोग किया जाता है। यह समृद्ध डेटासेट छोटे इंटरैक्टिव तत्वों का पता लगाने और वर्णन करने में मॉडल की सटीकता को बढ़ाता है, जो प्रभावी जीयूआई इंटरैक्शन के लिए महत्वपूर्ण है। इसके अलावा, आइकन c tion pission मॉडल द्वारा संसाधित छवि के आकार को ptimizing द्वारा, Omniper V2 पिछले संस्करण की तुलना में विलंबता में 60% की कमी प्राप्त करता है, 100 GPU पर 0.6 सेकंड प्रति फ्रेम का औसत प्रसंस्करण समय और साथ RTX 4090 GPU पर एक RTX
OM Miniperser V2 की प्रभावशीलता को स्क्रोटपॉट प्रो बेंचमार्क पर इसके प्रभाव की विशेषता है, जो GUI ग्राउंडिंग क्षमताओं के लिए एक मूल्यांकन संरचना है। जब GPT -4O के साथ संयुक्त, N Muniperser V2 ने औसत सटीकता 39.6%हासिल की, GPT -4O के बेसलाइन स्कोर के साथ 0.8%की उल्लेखनीय वृद्धि। यह उपकरण की क्षमता पर प्रकाश डालता है ताकि LLM को जटिल GUI, सुधार, उच्च-रिज़ॉल्यूशन डिस्प्ले और छोटे लक्ष्य संकेतों के साथ सटीक व्याख्या और संपर्क करने में सक्षम बनाया जा सके।
एकीकरण और प्रयोगों का समर्थन करने के लिए, Microsoft ने Omnitul विकसित किया है, एक डॉकरेटेड विंडोज सिस्टम जिसमें एजेंट विकास के लिए आवश्यक उपकरण के साथ Omniperser V2 शामिल है। Omnitul विभिन्न परिष्कृत LLMs के अनुरूप है, जिसमें Openai के 4O/O1/O3-Mini, DeepSik’s R1, Quain 2.5 VL और Ethropic’s Sonnet शामिल हैं। यह लचीलापन डेवलपर्स को विज़न-आधारित जीयूआई एजेंटों के डिजाइन को सुविधाजनक बनाने के लिए विभिन्न मॉडलों और अनुप्रयोगों में एन मुनपरर वी 2 का उपयोग करने की अनुमति देता है।
सारांश में, Omniperser V2 एक ग्राफिकल यूजर इंटरफेस के साथ LLM को एकीकृत करने में सार्थक प्रगति का प्रतिनिधित्व करता है। UI स्क्रीनशॉट को संरचित डेटा में परिवर्तित करके, यह LLM को सॉफ्टवेयर Fatware इंटरफेस के साथ LLM को समझने और संपर्क करने में सक्षम बनाता है। जांच की सटीकता, बेंचमार्क प्रदर्शनी में विलंबता और तकनीकी वृद्धि की कमी, ओमनीपर वी 2 डेवलपर्स के लिए एक मूल्यवान उपकरण बनाता है, जो कि गुई को स्वायत्त रूप से नेविगेट करने और हेरफेर करने में सक्षम बुद्धिमान एजेंट बनाने का लक्ष्य रखते हैं। जैसा कि AI विकसित करना जारी रखता है, Omiperser V2 जैसे उपकरणों को पाठ्य और दृश्य डेटा प्रसंस्करण के बीच अंतर को हटाने की आवश्यकता होती है, जो अधिक सहज और सक्षम AI सिस्टम का कारण बनता है।
जाँच करना तकनीकी विवरण, एचएफ और गिटथब पेज पर मॉडल। इस शोध के लिए सभी क्रेडिट इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 k+ ml सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए

मार्कटेकपोस्ट और आईआईटी मद्रास में एक परामर्श इंटर्न सना हसन, वास्तविक दुनिया की चुनौतियों को दूर करने के लिए प्रौद्योगिकी और एआई को लागू करने के बारे में उत्साहित हैं। व्यावहारिक समस्याओं को हल करने में उत्सुक रुचि के साथ, यह एआई और वास्तविक जीवन समाधानों के चौराहे के लिए एक नया परिप्रेक्ष्य लाता है।
