OpenAI 機器手自學解魔術方塊：隻經虛擬訓練，就能單手玩轉

OpenAI 的研究人員開發了一種新方法，可以將複雜的操作技能從模擬環境轉移到現實世界中。

視頻 | OpenAI 單隻機器臂轉魔術方塊（來源：OpenAI）

一年多前，總部位於舊金山的人工智能研究實驗室 OpenAI 宣布，其訓練的一隻機器手能夠以驚人的靈巧程度操縱魔術方塊。

這聽起來可能並不令人驚奇。但在人工智能領域，它令人印象深刻，原因有二：首先，這隻手通過強化學習算法自學了如何擺弄魔術方塊；其次，所有的訓練都是在模擬環境中進行的，但它成功地將其轉化為現實世界。從這兩個方面來說，這都是邁向更敏捷機器人的重要一步。

“我有點驚訝，”麻省理工學院(MIT)機器人專家和教授萊斯利•克爾布林（Leslie Kaelbling）在談到 2018 年的研究結果時說，“我從沒想過他們會做出這樣的事來。”

在近期的一篇新論文中，OpenAI 發布了它的機器手 Dactyl 的最新成果。這一次Dactyl 學會了用一隻手來轉魔術方塊，同樣是通過模擬中的強化學習。同樣，這並不是機器人破解了古老的謎題，而是這一成就提高了機器人的靈活性。

“這是一個非常困難的問題，”密歇根大學專門研究機器操作的機器人專家德米特裡•貝倫森（Dmitry Berenson）表示。“事實上，用物理機器手實操轉魔術方塊要比理論上通過模擬轉魔術方塊難得多。”

從虛擬世界到物理世界

傳統上，機器人只能以非常簡單的方式操縱物體。儘管強化學習算法在完成軟體中的複雜任務方面取得了巨大成功，比如在古老的圍棋遊戲中擊敗了最優秀的人類棋手，但用它們來訓練一台物理機器卻沒有那麽簡單。這是因為算法必須通過反覆試驗來完善自己，試驗次數可能需要達到數百萬次。一個物理機器人要在現實世界中做到這一點，就需要很長的時間。

為了避免這種情況，機器人專家使用仿真技術：他們為自己的機器人建立一個虛擬模型，並對其進行虛擬訓練，以完成手頭的任務。該算法在安全的數字空間中學習，然後可以移植到物理機器人身上。但這一過程也伴隨著自身的挑戰。建立一個完全複製現實世界中所有相同物理定律、物質屬性和操作行為的虛擬模型幾乎不可能，更不用說遇到一些意想不到的情況了。因此，機器人和任務越複雜，在物理現實中應用虛擬訓練的算法就越困難。

這就是讓 Kaelbling 對 OpenAI 一年前的結果印象深刻的地方。成功的關鍵是實驗室打亂了每一輪訓練的模擬條件，使算法更能適應不同的可能性。

“他們用各種瘋狂的方式把模擬器弄亂了，”Kaelbling 說，“他們不僅改變了重力的大小，還改變了重力指向的方向。因此，通過嘗試構建一個能在所有這些瘋狂的模擬排列下可靠工作的策略，該算法才可以在真實的機器人中工作。”

在最新的論文中，OpenAI 將這種技術又向前推進了一步。在此之前，研究人員必須通過手工選擇他們認為會產生更好算法的排列方式來隨機化環境中的參數。現在的訓練系統自己就能做到這一點。每當機器人在現有環境中達到一定的熟練程度時，模擬器就會調整自己的參數，使訓練條件變得更加困難。

其結果是一個更加穩定的算法，可以按照現實生活中旋轉魔術方塊所需的精度移動。通過測試，研究人員發現，Dactyl 在各種沒有經過訓練的情況下也能成功地解決魔術方塊。比如，它戴著橡膠手套，幾根手指被綁在一起，還有一個填充玩具長頸鹿在戳它。

圖 | 機器臂的魯棒性測試（來源：OpenAI）

解鎖通用機器人？

OpenAI 認為，最新的研究結果提供了強有力的證據，證明他們的方法將解鎖更多的通用型機器人，這些機器人可以適應開放式的環境，比如家庭廚房。OpenAI 的 Marcin Andrychowicz 說：“魔術方塊是世界上最複雜的剛性物體之一。”他說，儘管有一些涉及更多物體或可變形物體的更複雜的任務，但他相信實驗室的方法可以訓練操作所有這些物體的機器人：“我認為這種方法是機器人廣泛採用的方法。”

然而，Berenson 和 Kaelbling仍然持懷疑態度。“大家可能會想，是不是存在一個統一的理論或系統，而 OpenAI 現在只是將其應用於這個任務和那個任務，”Berenson 在談到之前和當前的論文時說，事實並非如此。這些是獨立的任務。有通用的組件，但也有大量的工程來讓每個新任務工作。

“這就是為什麽我覺得有點不舒服的原因，”他說，“我認為這是一個針對特定應用的非常具體的系統。”

視頻 | 機器手轉魔術方塊全過程，未經任何剪輯（來源：OpenAI）

Berenson 認為，問題的一部分在於強化學習本身。從本質上講，這種技術是為了掌握一件特定的事情而設計的，具有處理變化的靈活性。但在現實世界中，潛在變化的數量超出了可以合理模擬的範圍。例如，在一個清潔任務中，你可能會有不同種類的拖把，不同種類的潑灑物，和不同種類的地板。

強化學習也主要是為了從頭開始學習新能力而設計的。在機器人效率低下的情況下，人類的學習方式並不適用。“如果你已經是一個相當有能力的人，我教你在廚房裡幫忙的時候，你不需要重新學習你的整個運動控制”，Kaelbling 說。

Berenson 認為，要超越這些限制，就需要其他更傳統的機器人技術。

-End-

參考：

https://www.technologyreview.com/s/614554/a-robot-hand-taught-itself-to-solve-a-rubiks-cube-after-creating-its-own-training-regime/

https://openai.com/blog/solving-rubiks-cube/