新的訓練方法可以幫助AI代理在不確定條件下表現更好|麻省理工學院新聞

經過訓練在工廠執行家務任務的家具機器人可能無法有效擦洗水槽或在用戶廚房中部署時將垃圾取出,因為這種新環境與培訓空間不同。

為了避免這種情況,工程師通常會嘗試與將部署代理商的現實世界盡可能地與模擬培訓環境相匹配。

但是,來自麻省理工學院和其他地方的研究人員現在發現,儘管有這種傳統的智慧,但有時在完全不同的環境中訓練會產生表現更好的人工智能代理。

他們的結果表明,在某些情況下,在一個不確定性或“噪音”的世界中訓練模擬的AI代理,使其能夠比在他們用來測試兩個代理的同一嘈雜世界的競爭AI代理人中表現更好。

研究人員稱這種意外現象為室內訓練效果。

“如果我們學會在沒有噪音的室內環境中打網球,我們也許可以更輕鬆地掌握不同的鏡頭。然後,如果我們搬到一個嘈雜的環境,例如有風網球場,我們可能會比在大風環境中學習網球的可能性更高。”有關室內培訓效果的論文的主要作者。

播放視頻

室內訓練效果:轉變功能的分佈變化中的意外收益
視頻:麻省理工學院的大腦,思想和機器中心

研究人員通過訓練AI代理玩Atari遊戲來研究了這一現象,他們通過添加一些不可預測性來修改。他們驚訝地發現,室內訓練效果始終發生在Atari遊戲和遊戲變體中。

他們希望這些結果推動了對AI代理商開發更好的培訓方法的更多研究。

“這是一個全新的軸心。我們也許能夠構建AI代理商學習得更好的模擬環境,而不是試圖匹配培訓和測試環境,”哈佛大學研究生Spandan Madan補充說。

麻省理工學院研究生的伊莎·格羅弗(Ishaan Grover)加入了波諾(Bono)和馬丹(Madan)。耶魯大學的研究生毛亞蘇達(Mao Yasueda); MIT Media Lab中的媒體藝術與科學教授,個人機器人小組的負責人Cynthia Breazeal; Hanspeter Pfister,哈佛大學的王計算機科學教授;哈佛醫學院的教授加布里埃爾·克雷曼(Gabriel Kreiman)。這項研究將在人工智能會議促進協會中介紹。

培訓問題

研究人員著手探討為什麼在與訓練空間不同的環境中進行測試時,強化學習者的表現往往會如此慘淡。

強化學習是一種反複試驗的方法,在該方法中,代理商探索培訓空間並學會採取最大程度地提高其獎勵的行動。

該團隊開發了一種技術,可以向稱為過渡功能的強化學習問題的一個元素明確添加一定數量的噪聲。過渡函數根據其選擇的動作定義了代理將從一個狀態移動到另一種狀態的概率。

如果代理在玩PAC-Man,則過渡功能可能會定義遊戲板上的幽靈會向上,向下,向左或向右移動的概率。在標準增強學習中,將使用相同的過渡功能對AI進行訓練和測試。

研究人員通過這種常規方法為過渡功能增加了噪音,並且正如預期的那樣,它損害了代理商的Pac-Man績效。

但是,當研究人員用無噪聲的Pac-Man遊戲訓練了代理商時,然後在將噪聲注入過渡功能的環境中進行了測試,它的表現要比在嘈雜遊戲中訓練的代理更好。

“經驗法則是,您應該盡力捕獲部署條件的過渡功能,並在訓練過程中盡可能地獲得最大的收益。我們真的測試了這種洞察力,因為我們自己簡直不敢相信。”馬丹說。

將不同量的噪聲注入過渡功能使研究人員測試許多環境,但並未創建現實的遊戲。他們注入Pac-Man的噪音越多,鬼魂就會隨機傳送到不同的正方形。

要查看室內訓練效果是否發生在普通的Pac-Man遊戲中,他們調整了潛在的概率,因此幽靈正常移動,但更有可能上下移動,而不是左右移動。在這些逼真的遊戲中,接受過無噪聲環境訓練的AI代理仍然表現更好。

“這不僅是由於我們添加噪聲來創建臨時環境的方式。這似乎是強化學習問題的屬性。看到這更令人驚訝,”博諾說。

勘探解釋

當研究人員更深入地尋找解釋時,他們看到了AI代理如何探索訓練空間的一些相關性。

當兩個AI代理商主要探索同一區域時,在非噪聲環境中訓練的代理商的表現會更好,也許是因為代理商更容易學習遊戲規則而不會受到噪音的干擾。

如果他們的探索模式不同,那麼在嘈雜環境中訓練的代理人往往會表現更好。可能會發生這種情況,因為代理需要了解它在無噪聲環境中無法學習的模式。

“如果我只學會在非辛辣環境中用正手打網球,但是在嘈雜的環境中,我也必須與反手一起玩,我將在非辛辣的環境中進行比賽,” Bono解釋說。 。

將來,研究人員希望探討如何在更複雜的強化學習環境中或其他技術(如計算機視覺和自然語言處理)中發生室內訓練效應。他們還希望建立旨在利用室內培訓效果的培訓環境,這可以幫助AI代理在不確定的環境中表現更好。

Source link

Scroll to Top