融合AI發佈網絡遊戲:旨在評估通用網絡瀏覽的AI代理的綜合基準套件

人工智慧 代理人變得越來越先進,能夠在不同平台上處理複雜的任務。網站和桌面應用程序旨在用於人類使用,這需要視覺安排,交互式組件和基於時間的行為的知識。處理此類系統需要監視用戶操作,從單擊到復雜的拖放操作。 AI很難處理,並且無法與人類有關Web任務的能力競爭。對於測量和改善網絡瀏覽的AI代理是必要的更廣泛的評估系統。

現有的基準測試評估了在在線購物和飛行預訂等特定網絡任務中的AI性能,但無法捕獲現代Web互動的複雜性。諸如 GPT-4O,,,, 克勞德計算機使用,,,, 雙子座1.5-Pro, 和 qwen2-vl 在導航和任務執行方面掙扎。最初,基於強化學習,傳統的評估框架擴展到Web任務,但仍限於短上下文的場景,從而導致快速飽和和不完整的評估。現代網絡互動需要尚未完全測試的工具使用,計劃和環境推理等高級技能。儘管多代理相互作用引起了人們的關注,但當前的方法無法有效地評估AI系統之間的協作和競爭。

為了解決網絡互動中當前AI基準的局限性,研究人員來自 融合實驗室有限公司。 Clusterfudge Ltd. 建議的 網絡遊戲,旨在評估Web瀏覽AI代理的框架 50 互動挑戰。這些挑戰包括基本的瀏覽器使用情況,複雜的輸入管理,心理思維,工作流程自動化和交互式娛樂。與先前的基準相比,WebGames打算通過分離交互技能並提供對控制測試的AI來正確衡量。其客戶端設計可防止對外部資源的依賴性,從而提供統一和可重現的測試。

網絡遊戲 是模塊化的設計。它在標準化中指定問題 jsonl 與自動測試框架的輕鬆集成的格式,並與其他任務進行擴展。所有問題都遵循確定性驗證結構,該結構可確保任務驗證完成後。該結構通過Web交互,以系統的方式檢查AI性能,量化動態環境中的導航,決策和適應能力。

研究人員評估了領先的視覺基礎模型,包括 GPT-4O,,,, 克勞德 計算機使用(SONNET 3.5),GEMINI-1.5-PRO,QWEN2-VL和代理助理,使用WebGames評估其Web互動功能。由於大多數模型不是為Web互動設計的,因此他們需要使用劇作家通過鉻瀏覽器進行腳手架。除克勞德(Claude)外,模型缺乏足夠的GUI接地來確定精確的像素位置,因此使用了標誌性(SOM)方法來突出相關元素。模型在 部分觀察到馬爾可夫決策過程(POMDP),接收 jpeg 屏幕截圖和基於文本的SOM元素在通過反應式提示方法執行基於工具的操作時。評估表明,儘管具有更精確的Web控制,但克勞德(Claude)的得分低於GPT-4,這可能是由於擬人化的訓練限制阻止了類似人類行為的行動。來自多產的完成任務的人參與者,平均 80分鐘 並賺18英鎊,有些成就 100% 分數。這些發現揭示了人與AI能力之間的巨大能力差距,就像ARC挑戰一樣,某些活動,例如“滑塊交響樂”,要求嚴格的拖放功能證明很難實現模型,從而揭示了AI的限制在AI上限制了在現實世界中的互動。

總而言之,擬議的基準發現了人類與Web交互任務的AI性能存在顯著差距。表現最好的AI模型, GPT-4O,只能實現 41.2% 成功,而人類取得了成就 95.7%。結果表明,當前的AI系統與直觀的Web交互作用,並且對Claude Computer-use等模型的限制仍然阻礙了任務的成功。這種方法可以用作進一步研究的參考點,並指示AI靈活性,推理和Web相互作用效率的提高。


查看 紙和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數

🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Divyesh是Marktechpost的諮詢實習生。他正在哈拉格布爾印度理工學院的農業和食品工程領域尋求BTECH。他是數據科學和機器學習愛好者,他希望將這些領先的技術納入農業領域並解決挑戰。

🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)

Source link

Scroll to Top