監督微調(SFT)是大型語言模型(LLMS)和圖形用戶界面(GUI)代理的標準培訓範例。但是,SFT需要高質量的標籤數據集,從而導致較長的培訓期和高計算費用。這種對廣泛數據的依賴在AI開發工作流程中創造了瓶頸。此外,現有的基於VLM的GUI代理通過SFT培訓,表現出表現性能不足,當時面臨跨域情景,嚴重限制了其在不同現實世界中的實用性。基於規則的增強學習(RL)或加強微調(RFT)是一個有前途的替代方案,僅需要數千個樣本而不是大量數據集。
已經開發出各種方法來推進GUI代理並優化其培訓。 appaint and Mobile-Agent系列集成了商業模型,例如用於計劃和預測任務的GPT,但在很大程度上取決於迅速的工程和多代理協作,需要仔細的手動設計才能達到最佳性能。因此,研究人員在特定於任務的GUI數據集上微調了較小的開源MLLM,以創建專家。基於規則的RL已成為傳統培訓範式的有效替代方法,並利用了預定義的基於規則的獎勵功能,該功能專注於最終結果,同時允許模型有機地學習推理過程。該技術即使在較小的模型上也有效,並且通過特定於任務的視覺任務獎勵擴展到多模型模型。
Vivo AI實驗室和MMLAB @ cuHK的研究人員提出了UI-R1,以通過DeepSeek R1樣式RL提高多模式LLMS的GUI Action預測任務的推理能力。研究人員介紹了第一次探索基於規則的RL如何改善圖形UI動作預測的MLLM推理。五種常見的移動設備動作類型中,一個小而高質量的數據集策劃了136個具有挑戰性的任務。通過基於策略的算法引入基於統一的基於規則的行動獎勵,特別是組相對策略優化(GRPO),可以通過基於策略的算法來實現模型優化。與基本QWEN2.5-VL-3B模型相比,這種方法對內域和室外任務的有效性很高,其動作類型的準確性和接地精度有了顯著提高。
使用兩個專業基准進行評估系統的接地功能:屏幕貼圖,評估了跨移動,台式機和網絡平台的GUI接地,以及ScreensPot-Pro,它重點介紹了具有專家注重任務的高分辨率專業環境,這些任務涵蓋了23個應用程序,五個行業,五個行業和三個操作系統。此外,該模型使用AndroidControl選定的子集基於低級指令進行了對單步操作預測的測試,該指令將範圍範圍範圍擴大,該子集在ScreensPot基準測試中引入了更廣泛的動作類型。該研究方法還探討了訓練數據大小和模型性能之間的關鍵關係,比較隨機抽樣與基於難度的訓練數據選擇中的選擇。
UI-R1將3B模型的GUI接地能力提高了20%,而在屏幕杆位Pro上,將GUI接地能力提高了6%,在兩個基準測試基准上的表現都優於大多數7B模型。 UI-R1的性能與最新的7B模型(例如Aguvis和Os-Atlas)相當,儘管這些模型在較大的標記數據集上使用SFT進行了培訓。當將直接與QWEN2.5-VL(ZS)模型進行比較時,UI-R1僅使用136個培訓數據點顯示了動作類型預測準確性的15%提高,單擊元素接地精度的增強率為20%。研究還表明,儘管模型性能通過增加的訓練數據而改善,但這種關係逐漸飽和,基於難度的選擇方法始終優於隨機選擇。
總之,研究人員介紹了UI-R1框架,該框架成功地將基於規則的RL擴展到GUI Action預測任務,為傳統SFT提供了可擴展有效的替代方案。它使用一種新型的獎勵函數,同時評估行動類型和參數,從而有效地降低了任務複雜性,同時提高了學習效率。儘管僅利用來自移動域的130多個培訓樣本,但UI-R1取得了出色的性能,當在台式機和Web平台上應用於室外數據集時,顯示出強大的概括功能。 UI-R1在處理專業任務方面的出色適應性,數據效率和有效性為開發多模式GUI劑的未來方向有希望。
查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 85k+ ml子雷迪特。

Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。