पीसी-एजेंट से मिलें: पीसी पर जटिल काम ऑटो टोमेशन के लिए पदानुक्रमित मल्टी-एजेंट सहयोग संरचना

मल्टी-मॉडल मॉडल डेलो (एमएलएमएस) ने विभिन्न डोमेन में महत्वपूर्ण क्षमताओं को दिखाया है, मानव सहायता के लिए मल्टी-मॉडल एजेंटों में उनके विकास को अंजाम दिया है। पीसी के लिए जीयूआई ऑटो टोमेशन एजेंट स्मार्टफोन समकक्षों की तुलना में विशेष रूप से भयानक चुनौतियों का सामना करते हैं। पीसी वातावरण में Ga ense, विभिन्न संकेतों और विजेट्स के साथ काफी अधिक जटिल इंटरैक्टिव तत्वों को प्रस्तुत किया गया है, जिनमें अक्सर पाठ लेबल की कमी होती है, जिससे दृष्टि कठिनाइयों का कारण बनता है। क्लाउड -3.5 जैसे उन्नत मॉडल भी जीयूआई ग्राउंडिंग कार्यों में केवल 24.0% सटीकता प्राप्त करते हैं। इसके अलावा, पीसी उत्पादकता कार्यों में जटिल वर्कफ़्लोज़ शामिल हैं, जो प्रति अनुक्रमों और इंटर -सुबैटस्क निर्भरता के साथ कई अनुप्रयोगों को फैलाते हैं, जो नाटकीय संचालन को कम करता है जहां GPT -4 की सफलता दर पूर्ण निर्देशों के लिए केवल 8% है।

पिछले दृष्टिकोणों ने विभिन्न रणनीतियों के साथ पीसी कार्य जटिलता को खत्म करने के लिए रूपरेखा विकसित की है। UFO विशिष्ट नियंत्रण इंटरैक्शन को अलग करके दोहरे-एजेंट वास्तुकला को लागू करता है। इस बीच, एजेंट स्थानीय मेमोरी के साथ खोज नेलाइन खोज को जोड़कर नियोजन क्षमता को बढ़ाते हैं। हालांकि, ये विधियाँ ठीक-ठीक दाने वाली दृष्टि और स्क्रीन-स्क्रीन टेक्स्ट के प्रदर्शन में महत्वपूर्ण सीमाएं दिखाती हैं-उत्पादकता विचारों जैसे दस्तावेज़ अधिग्रहण के लिए एक महत्वपूर्ण आवश्यकता। इसके अलावा, वे आमतौर पर सबटास्क के बीच जटिल निर्भरता पर विचार करने में विफल होते हैं, जिसके परिणामस्वरूप वास्तविक इंट्रा- और इंटर-ऐप वर्कफ़्लो को संभालते समय खराब प्रदर्शन होता है, जो हर रोज पीसी की खपत की विशेषता है।

MAIS, इंस्टीट्यूट ऑटो टोमेशन, चाइनीज एकेडमी साइंस एफ साइंसेज, चाइना, स्कूल आर्ट फॉर आर्टिफिशियल इंटेलिजेंस, यूनिवर्सिटी ऑफ चाइनीज एकेडमी साइंस एफ साइंस, अलीबाबा ग्रुप, बीजिंग गियाटोंग और स्कूल इन्फॉर्मेशन साइंस एंड टेक्नोलॉजी। पी पी एस तीन अभिनव डिजाइनों के माध्यम से जटिल पीसी विचारों पर विचार करने के लिए। पहले, यह सक्रिय दृष्टि मॉड्यूल एक्सेस कामुकता के पेड़ों द्वारा स्थानों और इंटरैक्टिव तत्वों के अर्थों को बढ़ाता है, जबकि एक विशिष्ट पाठ स्थानीयकरण के लिए एमएलएलएम-रनिंग इरादा ओसीआर का उपयोग करके ठीक-दाने वाली बातचीत को बढ़ाता है। दूसरा वंशानुगत बहु-एजेंट सहयोग एक तीन-स्तरीय निर्णय प्रक्रिया (अधिसूचना-शबिटास्क-एक्शन प्रशस्ति पत्र) को लागू करता है, जहां प्रबंधक एजेंट के निर्देशों को एक सबटले में कम कर देता है और निर्भरता का प्रबंधन करता है, प्रगति एजेंट ट्रैक ऑपरेशन इतिहास को ट्रैक करता है, और निर्णय एजेंट दृष्टि और प्रगति की जानकारी के साथ कदम चलाता है। तीसरा प्रतिबिंब -आधारित गतिशील निर्णय एक प्रतिबिंब एजेंट का परिचय जो निष्पादन की शुद्धता का मूल्यांकन करता है और प्रतिक्रिया प्रदान करता है, सभी चार सहयोगी एजेंटों में नीचे-अप सटीक प्रतिक्रिया के साथ टॉप-डाउन टास्क अपघटन को सक्षम करता है।

पीसी-एजेंट की वास्तुकला औपचारिक दृष्टांत दृष्टिकोण द्वारा जीयूआई इंटरैक्शन को संबोधित करती है जहां एजेंट प्रक्रिया को संसाधित करता है। क्रियाओं को निर्धारित करने के लिए। सक्रिय धारणा मॉड्यूल इंटरैक्टिव तत्वों के लिए एक्सेस कैसिलिटी ट्री का आरसीटी के लिए पैमाने का उपयोग करके तत्व की वैधता को बढ़ाता है, जबकि एमएलएम-संचालित इरादे ओसीआर के साथ विशिष्ट पाठ स्थानीयकरण के लिए काम करते हैं। जटिल वर्कफ़्लोज़ के लिए, पीसी-एजेंट तीन परतों में एक पदानुक्रमित मल्टी-एजेंट सहयोग लागू करता है: प्रबंधक एजेंट एक पैरामीटर सबटास्क में निर्देशों को विघटित करता है और निर्भरता का प्रबंधन करता है; प्रोग्रेस एजेंट ट्रैक ट्रैक संचालन में प्रगति; और निर्णय एजेंट पर्यावरणीय दृष्टि और प्रगति की जानकारी के आधार पर चरण-दर-चरण क्रियाएं संचालित करता है। यह पदानुक्रम अनुभाग स्पष्ट रूप से स्पष्ट अंतर-संबंधित प्रबंधित घटकों में जटिल कार्यों को तोड़कर निर्णय लेने की जटिलता को कम करता है।

प्रायोगिक परिणाम एकल और मल्टी-एजेंट दोनों विकल्पों की तुलना में पीसी-एजेंट का सर्वश्रेष्ठ प्रदर्शन दिखाते हैं। एकल MLLM- आधारित एजेंट (GPT-4O, GEMINI-2.0, Cloud.5, QWN 2.5-VL) लगातार जटिल सूचनाओं पर विफल हो जाते हैं, सबसे अच्छा कलाकार केवल 12% सफलता दर प्राप्त करता है, यह पुष्टि करता है कि एकल-एजिंग दृष्टिकोण लंबे परिचालन अनुक्रमों और जटिल के साथ संघर्ष करते हैं। यूएफओ और एजेंट जैसे मल्टी-एजेंट फ्रेमवर्क सामान्य सुधार दिखाते हैं, लेकिन दृष्टि की कमियों और निर्भरता प्रबंधन समस्याओं से सीमित हैं। वे ठीक-ठीक संचालन के साथ संघर्ष करते हैं, जैसे कि शब्द में टेक्स्ट एडिटिंग या एक्सल में उचित डेटा प्रविष्टि, और अक्सर पिछले सबटास्क जानकारी का उपयोग करने में विफल रहते हैं। इसके विपरीत, पीसी-एजेंट पिछले सभी तरीकों को महत्वपूर्ण रूप से धक्का देता है, यूएफओ को सफलता दर के 44% और 32% एजेंटों को इसके सक्रिय पीछा मॉड्यूल और पदानुक्रमित मल्टी-एजेंट सहयोग के माध्यम से पार करता है।

यह अध्ययन प्रतिनिधित्व करता है पीसी-एजेंट फ्रेमवर्क, तीन प्रमुख नवाचारों द्वारा जटिल पीसी-आधारित कार्यों के प्रबंधन में महत्वपूर्ण प्रगति। सक्रिय धारणा मॉड्यूल जीयूआई तत्वों और पाठ के साथ विशिष्ट बातचीत को सक्षम करते हुए, शुद्ध दृष्टि और संचालन क्षमता प्रदान करता है। पदानुक्रमित बहु-एजिंग सहयोग वास्तुकला प्रभावी रूप से निर्देश, सबटास्क और एक्शन स्तरों की ओर निर्णय लेने के लिए विघटित हो जाता है, जबकि प्रतिबिंब आधारित गतिशील निर्णय-निर्धारण-निर्धारण वास्तविक समय त्रुटि जांच और सुधार। पीसी-एजेंट के सर्वश्रेष्ठ प्रदर्शन को पहचानना, पीसी-एजेंट को पहचानना, जो पीसी उत्पादकता विचारों की विशेषता है, वास्तविक, जटिल सुझावों के साथ जटिल वर्कफ़्लो और इंटरैक्टिव वातावरण की खोज में इसकी प्रभावशीलता को दर्शाता है।


जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड


ASJAD मार्केटकपोस्ट में एक इंटर्न कंसल्टेंट है। वह भारतीय संस्थान प्रौद्योगिकी एफ प्रौद्योगिकी, खड़गपुर में मैकेनिकल इंजीनियरिंग में बीटेक मना रहे हैं। असजाद एक मशीन लर्निंग और डीप वांडा एजुकेशन उत्साही है जो हमेशा हेल्थकेयर में मशीन लर्निंग अनुप्रयोगों पर शोध करता है।

पार्लेंट: LLMS (B ED) के साथ एक विश्वसनीय AI ग्राहक का सामना करना

Scroll to Top