Microsoft AI介紹了Magentic-UI:一個開源代理原型,該原型與人們一起完成需要多步規劃和瀏覽器使用的複雜任務

現代Web使用涵蓋了許多數字交互,從填寫表格和管理帳戶到執行數據查詢和導航複雜的儀表板。儘管網絡與生產力和工作流程深深交織在一起,但其中許多動作仍然需要重複的人類投入。對於需要詳細說明或僅僅搜索的詳細說明或決策的環境,這種情況尤其如此。儘管人工智能代理已經出現以支持任務自動化,但許多人優先考慮完整的自主權。但是,這經常放在用戶控制的地方,導致結果與用戶期望不同。增強生產力的AI的下一個飛躍涉及旨在替代用戶而是與他們合作的代理商,將自動化與連續的,實時的人類輸入融合,以獲得更準確和值得信賴的結果。

為基於Web的任務部署AI代理的主要挑戰是缺乏可見性和乾預措施。用戶經常看不到代理計劃的步驟,打算如何執行它們或何時脫離軌道。在涉及復雜決策的方案中,例如輸入付款信息,解釋動態內容或運行腳本,用戶需要機制來介入並重定向過程。如果沒有這些功能,系統就有可能會造成不可逆轉的錯誤或與用戶目標不一致的風險。這突出了當前AI自動化的重要局限性:沒有結構化的人類在循環設計中,用戶動態指導和監督代理行為,而不僅僅是作為觀眾行動。

以前的解決方案通過基於規則的腳本或由語言模型驅動的通用AI代理來接觸Web自動化。這些系統解釋用戶命令並嘗試自動執行它們。但是,他們經常執行計劃而不會浮出水面決策或允許有意義的用戶反饋。一些提供類似命令的互動,對於普通用戶來說是無法訪問的,很少包含分層的安全機制。此外,對任務再利用或跨會議的績效學習的最小支持限制了長期價值。當上下文更改中情境或錯誤必須協作糾正時,這些系統也往往缺乏適應性。

微軟的研究人員介紹了 洋紅色這是一個開源原型,強調針對基於Web的任務的協作人類交互。與以前的旨在完全獨立性的系統不同,該工具促進了實時共同計劃,執行共享和逐步用戶的監督。 Magentic-UI建立在Microsoft的Autogen框架上,並與Azure AI Foundry Labs緊密集成。這是從先前引入的洋紅色系統系統中的直接演變。通過推出,Microsoft Research旨在通過為研究人員和開發人員提供實驗平台來解決有關人類監督,安全機制和學習的基本問題。

Magentic-UI包括四個核心交互功能:共同計劃,共同任務,動作守護和計劃學習。共同計劃使用戶可以在執行之前查看並調整代理提出的步驟,從而完全控制AI的作用。共同任務可以在操作過程中實時可見性,讓用戶暫停,編輯或接管特定的操作。動作警衛是對高風險活動的可自定義確認,例如關閉瀏覽器選項卡或單擊“提交”表格,可能帶來意外後果的動作。計劃學習使Magentic-UI可以記住並完善未來任務的步驟,從而隨著時間的推移而通過經驗來改善。這些功能由一個模塊化的代理團隊支持:編排者領導計劃和決策,Weburfer處理瀏覽器交互,編碼器在沙盒中執行代碼,而FileSurfer解釋了文件和數據。

從技術上講,當用戶提交請求時,編排代理會生成一個逐步計劃。用戶可以通過編輯,刪除或再生步驟通過圖形接口對其進行修改。一旦最終確定,該計劃將在專業代理商之間委派。每個代理執行其任務後報告報告,並且編排者確定是否繼續,重複或請求用戶反饋。在接口上可見所有操作,用戶可以在任何時候停止執行。該體系結構不僅可以確保透明度,而且還允許自適應任務流。例如,如果由於鏈接斷開而導致步驟失敗,則編排者可以通過用戶同意動態調整計劃。

在使用Gaia基準測試的對照評估(包括瀏覽Web和解釋文檔之類的複雜任務)中,Magentic-UI的性能進行了嚴格的測試。蓋亞由162項需要多模式理解的任務組成。自主操作時,Magentic-UI成功完成了30.3%的任務。但是,當由模擬用戶支持其他任務信息時,成功躍升至51.9%,提高了71%。使用智能模擬用戶的另一種配置將速率提高到42.6%。有趣的是,Magentic-UI僅在增強任務的10%中要求提供幫助,並在18%的情況下要求提供最終答案。在這種情況下,系統平均要求提供1.1次幫助。這表明了最少但恰當的人類干預措施如何顯著提高任務完成,而沒有高度的監督成本。

Magentic-UI還設有一個“保存的計劃”畫廊,展示了從過去的任務中重新使用的策略。從這個畫廊的檢索比制定新計劃的速度要快三倍。當用戶輸入時,一種預測機製表現出這些計劃,簡化了重複的任務,例如飛行搜索或表格提交。安全機制很強。每個瀏覽器或代碼操作都在Docker容器中運行,以確保沒有使用用戶憑據。用戶可以為網站訪問定義允許列表,並且每個操作都可以在批准提示後面封閉。紅線隊的評估進一步對其進行了針對網絡釣魚攻擊和迅速注射的測試,該系統要么尋求用戶澄清或阻止執行,從而加強了其分層的防禦模型。

關於Magentic-UI的研究的幾個關鍵要點:

  • 通過簡單的人類輸入,Magentic-UI將任務完成71%(從30.3%到51.9%)。
  • 請求用戶在每個任務的增強任務和平均1.1幫助請求中僅提供10%的幫助。
  • 它具有共同計劃的UI,可以在執行前進行完整的用戶控制。
  • 通過四個模塊化代理執行任務:編排,WebSurfer,Coder和Filesurfer。
  • 存儲和重用計劃,將重複任務延遲降低到3倍。
  • 所有操作均通過Docker容器製成沙盒;從未公開過用戶憑證。
  • 通過了針對網絡釣魚和注射威脅的紅線評估。
  • 為高風險步驟支持完全可用戶可配置的“動作警衛”。
  • 完全開源,並與Azure AI Foundry Labs集成。

總之,Magentic-UI解決了AI自動化中的一個長期問題,缺乏透明度和可控性。它沒有替換用戶,而是使他們能夠保持該過程的核心。即使在最小的幫助下,該系統的性能也很好,並學習每次都可以改善。模塊化設計,強大的保障措施和詳細的交互模型為未來的智能助手奠定了堅實的基礎。


查看技術細節和GitHub頁面 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱 我們的新聞通訊


Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。

Source link

Scroll to Top