從運動控製到具體的智能

研究

出版
作者

Siqi Liu,Leonard Hasenclever,Steven Bohez,Guy Lever,Zhe Wang,SM Ali Eslami,Nicolas Heess

使用人類和動物的動作教機器人運球,並模擬類人動物來攜帶盒子和踢足球

人形特徵學會通過反複試驗遍歷障礙物,這可能會導致特質解決方案。 Heess等。 “富裕環境中運動行為的出現”(2017年)。

五年前,我們面臨著教授完全鉸接的類人動物特徵以遍歷障礙課程的挑戰。這表明了強化學習(RL)可以通過反複試驗實現的目標,但也強調了解決方案的兩個挑戰 體現 智力:

  1. 重複使用以前學到的行為: 代理商“脫離地面”需要大量數據。如果沒有任何最初的知識,則代理人從隨機的身體抽搐並迅速落在地面上開始。可以通過重複使用先前學習的行為來緩解此問題。
  2. 特質行為: 當代理商最終學會了探索障礙課程時,它以不自然的(儘管很有趣)的運動模式進行了操作,這對於諸如機器人技術等應用是不切實際的。

在這裡,我們描述了一種解決兩個挑戰的解決方案,稱為神經概率的運動原始基底(NPMP),涉及帶有人類和動物的運動模式的指導性學習,並討論了今天在我們的人形足球論文中如何使用這種方法,該方法今天在科學機器人技術中發表。

我們還討論了這種相同的方法如何使視力的人形全身操縱,例如攜帶物體的人形生物和現實世界中的機器人控制,例如機器人滴球。

使用NPMP將數據提煉成可控的電機原始圖

NPMP是一種通用電機控制模塊,將短馬電機意圖轉換為低級控制信號,並且通過模仿運動捕獲(MOCAP)數據經過訓練,或通過RL訓練,並記錄在人類或動物上的跟踪器的記錄興趣。

學家學習模仿MOCAP軌跡(以灰色為單位)。

該模型有兩個部分:

  1. 一種編碼器,該編碼器將未來的軌跡壓縮為電動機意圖。
  2. 鑑於代理的當前狀態和該電動機意圖,可產生下一個動作的低級控制器。

我們的NPMP模型首先將參考數據擴展為低級控制器(左)。然後,此低級控制器可以用作新任務(右)上的插件電動機控制模塊。

訓練後,可以重複使用低級控制器來學習新任務,在此過程中,高級控制器被優化以直接輸出電動機意圖。這可以有效探索 – 因為即使是隨機採樣的運動意圖也會產生連貫的行為 – 並限制了最終解決方案。

人形足球的緊急團隊協調

足球一直是體現情報研究的長期挑戰,需要個人技能和協調的團隊比賽。在我們的最新作品中,我們在指導學習技能的學習之前將NPMP用作。

結果是一組球員,從學習球的技巧到最終學習進行協調。以前,在簡單實施例的研究中,我們表明,協調行為可以在相互競爭的團隊中出現。 NPMP允許我們觀察到類似的效果,但在需要明顯更先進的電動機控制的情況下。

特工首先模仿足球運動員學習NPMP模塊(頂部)的運動。使用NPMP,代理商學習了足球特定的技能(底部)。

我們的代理商獲得了一系列統計數據所證明的敏捷運動,通過和分工在內的技能,包括現實世界體育分析中使用的指標。球員表現出敏捷的高頻電動機控制和長期決策,涉及對隊友的行為的預期,從而導致了協調的團隊比賽。

一個代理商學習使用多代理RL競爭足球比賽。

使用視覺的全身操縱和認知任務

學習使用武器與對象互動是另一個困難的控制挑戰。 NPMP還可以實現這種類型的全身操作。有了少量與盒子交互的MOCAP數據,我們能夠使用以自我為中心的視覺訓練代理將盒子從一個位置運送到另一個位置,並且只有稀疏的獎勵信號:

使用少量的MOCAP數據(頂部),我們的NPMP方法可以解決一個攜帶框的任務(底部)。

同樣,我們可以教經紀人捕捉和扔球:

模擬人形捕獲並扔球。

使用NPMP,我們還可以處理涉及運動,感知和記憶的迷宮任務:

模擬的類人動物在迷宮中收集藍色球。

安全有效地控制現實世界機器人

NPMP還可以幫助控制真正的機器人。進行良好的調查行為對於在崎rough地形或處理脆弱物體等活動等活動中至關重要。抖動的動作會損壞機器人本身或周圍的環境,或者至少會耗盡其電池電池。因此,通常會投入大量努力來設計使機器人以安全有效的方式行事的學習目標。

作為替代方案,我們研究了使用生物運動衍生的先驗是否可以為我們的腿部機器人提供良好的,自然的和可重複使用的運動技能,例如步行,跑步和轉彎,適合在現實世界中部署。

從人類和狗的MOCAP數據開始,我們將NPMP方法調整為訓練技能和控制器的模擬中,然後可以分別將其部署在真實類人(OP3)和四倍(Anymal B)機器人上。這使用戶可以通過操縱桿或將球運球以自然而健壯的方式將機器人轉移到目標位置。

通過模仿狗MoCap,可以學習任何Mamal機器人的機車技巧。

然後,可以將運動技能重複使用,以控制行走和滴球。

使用神經概率的電機原語的好處

總而言之,我們已經使用了NPMP技能模型來學習模擬和現實世界機器人中的人形特徵的複雜任務。 NPMP以可重複使用的方式包裝低級移動技能,使學習有用的行為更容易通過非結構化的反複試驗而難以發現。將運動捕獲作為先驗信息的來源,它偏向於學習運動控制的自然主義運動。

NPMP使體現的代理可以使用RL更快地學習;學習更多的自然行為;學習更安全,高效和穩定的行為,適合現實世界機器人技術;並將全身電動機控制與更長的視野認知能力相結合,例如團隊合作和協調。

了解有關我們工作的更多信息

Source link

Scroll to Top