Poe-World +計劃者在蒙特祖瑪的報仇中勝過強化學習RL基準,並使用最小的演示數據

符號推理在世界建模中的重要性

了解世界的運作方式是創建可以適應複雜情況的AI代理的關鍵。諸如Dreamer之類的基於神經網絡的模型具有靈活性,但它們需要大量的數據才能有效學習,遠遠超過了人類通常這樣做的。另一方面,較新的方法將程序合成與大語言模型一起生成基於代碼的世界模型。這些更有效,可以從有限的輸入中概括。但是,它們的使用主要僅限於簡單的域,例如文本或網格世界,因為擴展到復雜的,動態的環境仍然是一個挑戰,因為難以產生大型,全面的程序。

現有編程世界模型的局限性

最近的研究調查了使用程序來代表世界模型的使用,通常利用大型語言模型來綜合Python過渡功能。諸如WorldCoder和CodeWorldModels之類的方法生成了一個大型程序,該程序限制了它們在復雜環境中的可擴展性及其處理不確定性和部分可觀察性的能力。一些研究通過將視覺輸入與抽象推理整合在一起,重點是用於機器人計劃的高級符號模型。較早的努力採用了針對特定基准或概念上相關的結構(例如模式網絡中的因子圖)量身定制的受限制域特異性語言。理論模型(例如AIXI)還使用圖靈機和基於歷史記錄的表示探索世界建模。

介紹POE世界:模塊化和概率世界模型

康奈爾,劍橋,艾倫·圖靈研究所和達爾豪西大學的研究人員通過結合許多小型的,LLM合成的計劃,介紹了一個特定的環境規則,從而介紹了Poe-world,這是一種學習符號世界模型的方法。 Poe-World並沒有創建一個大型程序,而是建立了一個模塊化的概率結構,可以從簡短的演示中學習。這種設置支持對新情況的概括,即使在龐和蒙特祖瑪的複仇等複雜遊戲中,也可以有效地計劃。儘管它沒有建模原始像素數據,但它可以從符號對象觀察中學習,並強調準確的建模,而不是探索以進行有效的決策。

POE世界的建築和學習機制

Poe-world將環境建模為稱為“程序化專家”的小型,可解釋的Python程序的組合,每個計劃都負責特定的規則或行為。這些專家經過加權和合併,以根據過去的觀察和行動來預測未來的國家。通過將特徵視為有條件獨立並從完整的歷史中學習,該模型保持模塊化和可擴展性。硬性約束會完善預測,並且隨著新數據的收集,專家會更新或修剪。該模型通過模擬可能的未來結果來支持計劃和強化學習,從而實現有效的決策。使用LLMS合成程序並概率地解釋,並通過梯度下降優化了專家權重。

Atari遊戲的經驗評估

該研究評估了他們的代理商Poe-World + Planner,對Atari的Pong和Montezuma的複仇,包括這些遊戲的更艱難,修改版本。使用最小的演示數據,其方法優於PPO,React和WorldCoder等基線,尤其是在低數據設置中。 Poe-world通過準確建模遊戲動態來展示強有力的概括,即使在沒有新演示的情況下進行了更改的環境中。這也是唯一在蒙特祖瑪報仇中持續取得積極評分的方法。 POE-World的模擬環境中的預訓練政策加速了現實世界的學習。與WorldCoder的有限模型不同,Poe-World會產生更詳細的約束意識表示形式,從而實現更好的計劃和更現實的遊戲中的行為。

結論:可擴展AI計劃的符號,模塊化程序

總之,了解世界的運作方式對於建立適應性AI代理至關重要。但是,傳統的深度學習模型需要大型數據集,並難以靈活地以有限的輸入更新。該研究受到人類和符號系統如何重組知識的啟發,提出了Poe-world。該方法利用大型語言模型來合成代表世界不同地區的模塊化編程“專家”。這些專家在構圖上結合在一起,形成一個符號,可解釋的世界模型,該模型支持最小數據中的強有力的概括。在乒乓球和蒙特祖瑪的複仇等阿塔里遊戲中進行了測試,即使在不熟悉的情況下,這種方法也證明了有效的計劃和表現。代碼和演示是公開可用的。


查看 紙,項目頁面和GitHub頁面 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 100K+ ml子雷迪特 並訂閱 我們的新聞通訊


Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。

Source link

Scroll to Top