通過觀察狗的活動谷歌AI教會機器人行動

公開日: 2020-04-04

谷歌研究人員開發了一種 AI 系統，該系統可以從動物的動作中進行學習，從而賦予機器人更大的靈活性，該機器人可以完成現實世界中的任務，例如在多層倉庫和履行中心之間運輸物料。

團隊的框架採用了動物（在這種情況下為狗）的運動捕捉剪輯，並使用強化學習（一種訓練技術，刺激軟體代理通過獎勵來完成目標）來訓練控制策略。他們說，通過為系統提供不同的參考運動，研究人員可以“教”四腿的 Unitree Laikago 機器人執行一系列行為，從快速行走（每小時最高 2.6 英裡的速度）到跳躍。

為了驗證他們的方法，研究人員首先匯編了具有各種技能的真狗的數據集。然後，通過在獎勵函數中使用不同的運動，研究人員進行了約兩億次訓練采樣一個模擬機器人來模仿運動技能。

但是模擬器通常僅提供真實世界的粗略近似情況。為了解決這個問題，研究人員採用了一種自適應技術，該技術可以隨機化模擬中的動力學，例如改變物理量，機器人的質量和摩擦力。這些值使用編碼器映射到數字表示形式（即編碼），該數字表示形式作為輸入傳遞到機器人控制策略。在將策略部署到實際的機器人時，研究人員刪除了編碼器，並直接搜索了一組變量，這些變量使機器人能夠成功執行技能。

該團隊說，他們能夠在大約 50 個試驗中使用不到 8 分鐘的真實數據來使策略適應實際情況。此外，他們證明了現實世界中的機器人學會了模仿狗的各種動作，包括快跑和慢跑，以及一些關鍵幀動作。