ब्राउज़र-उपयोग एजेंटों में वृद्धि: क्यों कन्वर्जेंस बीट ओपनई ऑपरेटर का प्रॉक्सी है


नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें


एआई-संचालित ब्राउज़र-उपयोग एजेंटों की एक नई लहर उभर रही है, यह बदलने का वादा कर रहा है कि एंटरप्राइज़ वेब के साथ कैसे संपर्क करता है। ये एजेंट स्वायत्त रूप से वेबसाइटों का पता लगा सकते हैं, जानकारी हासिल कर सकते हैं और यहां तक ​​कि पूर्ण लेनदेन भी कर सकते हैं – लेकिन प्रारंभिक परीक्षण वादे और प्रदर्शन के बीच महत्वपूर्ण अंतराल दिखाते हैं।

जबकि Openai के नए ब्राउज़र-यूज़ेज एजेंट ने सुर्खियां पकड़ी हैं, जैसे कि ऑपरेटर पेरेटर द्वारा पेश किए गए उपभोक्ता उदाहरण, जैसे कि पिज्जा ऑर्डर करना या गेम टिकट खरीदना, सवाल यह है कि प्रमुख डेवलपर और उद्यम के उपयोग के मामले कहां हैं। एआई एजेंट ऐप को विकसित करने वाली कंपनी रेड ड्रैगन के सह-संस्थापक सैम विट्टेव ने कहा, “जो चीज हम नहीं जानते हैं, वह एक हत्यारा ऐप होगी।” “मेरा अनुमान है कि यह ऐसी चीजें होंगी जो वेब पर समय लेती हैं जो आप वास्तव में आनंद नहीं लेते हैं।” इनमें वेब पर जाने और किसी उत्पाद की सबसे सस्ती कीमत खोजने या सर्वश्रेष्ठ होटल सुविधा की बुकिंग जैसी चीजें शामिल हैं। अधिक संभावना है कि इसका उपयोग अन्य उपकरणों जैसे कि डीप डैंड रिसर्च के साथ किया जाएगा, जहां कंपनियां तब अधिक परिष्कृत अनुसंधान कर सकती हैं प्लस वेब के आसपास कार्यों का कार्यान्वयन।

कंपनियों को तेजी से बढ़ते परिदृश्य का सावधानीपूर्वक मूल्यांकन करने की आवश्यकता है क्योंकि स्थापित खिलाड़ी और स्टार्टअप स्वायत्त ब्राउज़िंग चुनौती को हल करने के लिए अलग -अलग दृष्टिकोण लेते हैं।

ब्राउज़र-उपयोग एजेंट परिदृश्य में मुख्य खिलाड़ी

यह क्षेत्र जल्दी से बड़ी तकनीकी कंपनियों और अभिनव स्टार्टअप दोनों के साथ एक भीड़ बन गया है:

ऑपरेटर प्यूरेटर और प्रॉक्सी उपभोक्ता के अनुकूल और आउट-ऑफ-द-बॉक्स रेडी के मामले में सबसे अधिक उन्नत हैं। कई अन्य डेवलपर्स या उद्यम खुद को उपभोग के लिए अधिक जगह दे रहे हैं। उदाहरण के लिए, एक ब्राउज़र का उपयोग, एक वाई-कमर स्टार्टअप जो उपयोगकर्ताओं को एजेंट के साथ उपयोग किए जाने वाले मॉडल को अनुकूलित करने की अनुमति देता है। यह आपको इस बात का अधिक नियंत्रण देता है कि एजेंट कैसे काम करता है, जिसमें आपके स्थानीय मशीन से मॉडल का उपयोग शामिल है। लेकिन इसमें निश्चित रूप से अधिक शामिल है।

ऊपर सूचीबद्ध अन्य स्थानीय मशीन संसाधनों के साथ दक्षता और बातचीत के विभिन्न डिग्री प्रदान करती है। मैंने अभी के लिए बिडेंस के यूआई-टार्स का परीक्षण करने का फैसला नहीं किया है, क्योंकि इसने निचले स्तर से मेरी मशीन की सुरक्षा और गोपनीयता सुविधाओं को निष्पादित करने का अनुरोध किया है (यदि मैं इसका परीक्षण करता हूं, तो मैं निश्चित रूप से एक माध्यमिक कंप्यूटर का उपयोग करूंगा)।

परीक्षण तर्क चुनौतियां दिखा रहा है

तो परीक्षण में सबसे आसान है Openai का ऑपरेटर प्यूरेटर और अभिसरण का एक प्रॉक्सी। हमारे परीक्षण में, परिणाम प्रकाशित करते हैं कि कैसे तर्क क्षमताएं कच्चे स्वचालन सुविधाओं की तुलना में अधिक महत्वपूर्ण हो सकती हैं। ऑपरेटर, विशेष रूप से, अधिक खराब हो गया था।

उदाहरण के लिए, मैंने एजेंटों को वेंचरबिट की पांच सबसे लोकप्रिय कहानियों को खोजने और संक्षेप में बताने के लिए कहा। यह एक अस्पष्ट कार्य था, क्योंकि वेंचरबिट में “सबसे लोकप्रिय” अनुभाग नहीं प्रति सत्र। ऑपरेटर प्यूरेटर इसके साथ संघर्ष करता है। जब उन ‘सबसे लोकप्रिय’ कहानियों की तलाश में, तो यह एक अंतहीन स्क्रॉलिंग लूप में गिर गया जब एक मैनुअल हस्तक्षेप की आवश्यकता थी। दूसरे प्रयास में, उन्हें एक तीन -वर्षीय लेख मिला, जिसका नाम “द टॉप फाइव स्टोरीज़ ऑफ द वीक” है। इसके विपरीत, प्रॉक्सी ने बेहतर तर्क दिखाया, होमपेज पर पांच सबसे अधिक दिखाई देने वाली कहानियों की पहचान लोकप्रियता के लिए एक व्यावहारिक प्रॉक्सी के रूप में, और इसे एक सटीक सारांश दिया।

वास्तविक दुनिया के कार्यों में अंतर भी स्पष्ट था। मैंने एजेंटों को नपा, कैलिफोर्निया में दोपहर से एक रोमांटिक रेस्तरां में आरक्षण बुक करने के लिए कहा। ऑपरेटर ने काम को रैखिक रूप से संपर्क किया – पहले एक रोमांटिक रेस्तरां खोजें, फिर दोपहर की उपलब्धता की जांच करें। जब कोई टेबल उपलब्ध नहीं था, तो वे अंतिम छोर पर पहुंच गए। प्रॉक्सी ने रेस्तरां के किराए को खोजने के लिए ओपेन्टेबल के साथ शुरू करके अधिक परिष्कृत तर्क दिखाया, जो वांछित समय पर रोमांटिक और उपलब्ध दोनों थे। वह थोड़ा बेहतर रेटेड रेस्तरां के साथ भी लौटा।

सरल कार्यों में महत्वपूर्ण अंतर भी सामने आए थे। अमेज़ॅन पर “UBKI 5C NFC मूल्य” की खोज करते समय, प्रॉक्सी ने ऑपरेटर तालाब की तुलना में अधिक आसानी से आइटम को आसानी से पाया।

ओपन ने अपने ऑपरेटर प्यूरेटर एजेंट को प्रशिक्षित करने के लिए इस्तेमाल की जाने वाली प्रौद्योगिकियों में ज्यादा हिस्सा नहीं लिया है, सिवाय इसके कि यह ब्राउज़र-उपयोग कार्यों पर अपने मॉडल को प्रशिक्षित करता है। हालांकि, अभिसरण, अधिक विस्तार से प्रदान करता है: इसका एजेंट एक जेनेरिक ट्री सर्च के रूप में उपयोग किया जाता है “वेब-वर्ल्ड मॉडल का लाभ उठाने के लिए जो प्रस्तावित कार्रवाई के बाद वेब की स्थिति की भविष्यवाणी करते हैं। हमारे मूल्य का सबसे अच्छा, सबसे अच्छा का सबसे अच्छा मूल्य यह अक्सर हमारे वेब-वर्ल्ड मॉडल द्वारा एक संभावित वायदा पेड़ का उत्पादन करने के लिए निर्मित होता है। स्थितियों में भी प्रशिक्षित किया जा सकता है “(यहाँ अधिक)।

बेंचमार्क अभी के लिए बेकार हो सकता है

कागज पर, ये उपकरण बारीकी से मेल खाते हैं। Convergence के प्रॉक्सी Webwoar ने बेंचमार्क पर 88% प्राप्त किया, जो अमेज़ॅन और Booking.com जैसी 15 लोकप्रिय वेबसाइटों पर 643 वास्तविक दुनिया के कार्यों में वेब एजेंटों का मूल्यांकन करता है। Openai के ऑपरेटर Puretor का स्कोर 87%है, जबकि ब्राउज़र-यूज़ का कहना है कि यह 89%तक पहुंच जाता है, लेकिन वेबवॉयगर कोडबेस को बदलने के बाद ही, यह स्वीकार किया, “हमारी जरूरतों के अनुसार”।

इन बेंचमार्क स्कोर को वास्तव में नमक के दाने के साथ लिया जाना चाहिए, हालांकि, वे गेमिंग हो सकते हैं। वास्तविक परीक्षण व्यावहारिक रूप से वास्तविक दुनिया के मामलों के लिए उपयोग किए जाते हैं। यह बहुत जल्दी है, अंतरिक्ष बहुत तेजी से बदल रहा है, और ये उत्पाद लगभग दैनिक आधार पर बदल रहे हैं। परिणाम उन विशिष्ट नौकरियों पर निर्भर करेंगे जो आप करने की कोशिश कर रहे हैं, और आप विभिन्न उत्पादों का उपयोग करते समय प्राप्त वाइब्स पर भरोसा करेंगे।

उद्योग

एंटरप्राइज ऑटोमेशन के लिए निहितार्थ महत्वपूर्ण है। जैसा कि विटविन हमारे वीडियो पॉडकास्ट वार्तालाप में बताते हैं, जहां हम इस ब्राउज़र-उपयोग की प्रवृत्ति में गहरी वांडा गोता लगाते हैं, कई कंपनियां वर्तमान में आभासी सहायकों के लिए भुगतान कर रही हैं, जो वास्तविक लोगों द्वारा संचालित एकत्र किए गए कार्यों को संभालती हैं। ये ब्राउज़र-उपयोग एजेंट नाटकीय रूप से उस समीकरण को बदल सकते हैं।

विटविन ने नोट किया, “अगर एआई इसका नेतृत्व करता है,” तो वे लोग अपनी नौकरी खोने पर पहले कम लटकने वाले फल बन जाएंगे। यह इन प्रकार की कुछ चीजों में दिखाई देगा। “

यह रोबोटिक प्रक्रिया ऑटो टोमेशन (आरपीए) प्रवृत्ति को खिला सकती है, जहां ब्राउज़र के उपयोग को कंपनियों के लिए अधिक कार्यों को स्वचालित करने के दूसरे साधन के रूप में खींचा जाता है। और जैसा कि पहले उल्लेख किया गया है, अधिक शक्तिशाली उपयोग के मामले तब होंगे जब एजेंट अन्य उपकरणों के साथ संयुक्त ब्राउज़र का उपयोग करता है, जिसमें डीप रिसर्च जैसे आइटम शामिल हैं, जहां एलएलएम-संचालित एजेंट खोज उपकरण का उपयोग करता है। प्लस ब्राउज़र अधिक परिष्कृत काम करने के लिए उपयोग करता है।

मूल्य गतिशीलता ड्राइविंग नवाचार

एक अन्य प्रमुख कारक जो तेजी से विकास चलाता है, वह है शक्तिशाली ओपन-सन लॉजिक मॉडल जैसे कि डीप्सिक-आर 1 की उपलब्धता। यह इन कंपनियों को ब्राउज़र-उपयोग एजेंट बनाने की अनुमति देता है, प्रभावी रूप से बड़े खिलाड़ियों के साथ प्रतिस्पर्धा करता है, इन मॉडलों को खुद को बनाने के बजाय इन मॉडलों के लाभ को देकर प्रतिस्पर्धा करता है।

मूल्य दबाव पहले से ही स्पष्ट है। जब Openai को ऑपरेटर ऑपरेटर पॉन्ड के लिए $ 200 मासिक Chattagpt Pro सदस्यता की आवश्यकता होती है, तो अभिसरण सीमित मुफ्त उपयोग (दिन के पांच उपयोग तक) और $ 20/माह की असीमित योजना प्रदान करता है। इस प्रतिस्पर्धी गतिशीलता को उद्यम गोद लेने में तेजी लाना चाहिए, हालांकि स्पष्ट -उपयोग के मामले अभी भी उभर रहे हैं।

सुरक्षा और एकीकरण चुनौतियां

व्यापक उद्यम गोद लेने से पहले कई बाधाएं बची हैं। कुछ वेबसाइटें सक्रिय रूप से स्वचालित ब्राउज़िंग को अवरुद्ध करती हैं, जबकि अन्य को कैप्चा परीक्षण की आवश्यकता होती है। जबकि Openai और अभिसरण में ऐसे उपकरण होते हैं जो पिछले कैप्चेस को प्राप्त कर सकते हैं, वे उपयोगकर्ताओं को उन्हें भरने के लिए काम करने की अनुमति देते हैं – इसके बजाय सीधा करने के लिए, क्योंकि कैप्चर का पूरा बिंदु यह सुनिश्चित करना है कि आदमी दूसरे छोर पर है। Bidens के UI-TARS जैसे उपकरण डीप वैंड सिस्टम एक्सेस सेस का अनुरोध करते हैं, जो एंटरप्राइज़ परिनियोजन के लिए सुरक्षा चिंताओं को बढ़ाता है।

इसके अलावा, वेबसाइट सहयोग के लिए दृष्टिकोण भिन्न होता है। Openai ने विशेष भागीदारों जैसे इंस्टॉलर, Priceline, Dordash और Insi के साथ काम किया है, जबकि अन्य किसी भी वेबसाइट पर नेविगेट करने का प्रयास करते हैं। यह असंगति उद्यम उपयोग के मामलों के लिए विश्वसनीयता को प्रभावित कर सकती है। और निश्चित रूप से, किसी भी समय एक एजेंट साइट को हिट करता है जिसमें एल लॉगिन जिन विवरण की आवश्यकता होती है, जो चीजों को धीमा कर देगा – क्योंकि एजेंट उन विवरणों को भरने के लिए आपको चीजों को बदल देंगे।

आगे देखना

इन उपकरणों का मूल्यांकन करने वाले उद्यमों के लिए, ध्यान विशिष्ट उपयोग के मामलों पर होना चाहिए जहां स्वायत्त वेब इंटरैक्शन एक स्पष्ट मूल्य प्रदान कर सकता है – चाहे अनुसंधान, ग्राहक सेवा या प्रक्रिया स्वचालन में। प्रौद्योगिकी तेजी से प्रगति कर रही है, लेकिन सफलता ठोस व्यावसायिक जरूरतों से मेल खाने की क्षमता पर निर्भर करती है।

जैसे-जैसे यह स्थान विकसित होता है, विशेष उद्योगों या कार्यों के लिए अधिक उद्यम-केंद्रित सुविधाओं और संभावित विशिष्ट एजेंटों को देखने की अपेक्षा करें। स्थापित खिलाड़ियों और अभिनव स्टार्टअप्स के बीच की दौड़ को तकनीकी उन्नति और प्रतिस्पर्धी कीमतों दोनों को चलाना चाहिए, जिससे एंटरप्राइज़ ब्राउज़र-उपयोग एजेंट को अपनाने के लिए 2025 एक महत्वपूर्ण वर्ष हो गया।

इन रुझानों और परीक्षण के परिणामों के बारे में अधिक विवरण के लिए, सैम विटिविन और मेरे बीच पूर्ण वीडियो बातचीत देखें।

Scroll to Top