玩個錘子，李飛飛夫婦團隊的最新研究

機械栗發自凹非寺

量子位報導 | 公眾號 QbitAI

錘子是一個神奇的工具，各種畫風都能駕馭。

比如，神族玩錘子是這樣。

獸族玩錘子是這樣。

人族嘛……

誤。

回歸正片，今天來看看，機器人玩（個）錘子，且是自學成才，會有怎樣的畫風？

今天的機器人主角，誕生在斯坦福李飛飛夫婦的實驗室裡，擁有花樣錘技，還被機器人頂會RSS 2018選中了。

關於錘技，先看兩個小栗子。

任務一：把釘子敲進木盒

人類隻告訴機器人這個任務，沒有其他多餘的指示。使用什麽工具，用什麽姿勢完成，全靠機器人自己判斷。

它發現了桌上的一把錘子。

於是，抓起錘子的把手，把釘子敲了進去。

完成。

任務二：清除桌面的易拉罐

同樣，人類隻告訴機器人這個任務，沒有其他多餘的指示。使用什麽工具，用什麽姿勢完成，全靠機器人自己判斷。

於是，它又抓起了桌上的錘子。

同樣完成。

注意，兩個不同的任務，握錘姿勢不一樣（不一樣……）

這個機智的機器人，能夠根據不同的任務，決定應該如何握住手裡的錘子，以及用什麽方式完成指定的任務。

其實，就算是它從來沒見過的、骨骼清奇的錘子，也是一眼就會玩。

鋸都算上了，但這也只是很小的一部分。

而且，機器人腦子裡的神經網絡，是自我監督學習的，不需要人類傳授什麽秘籍。

這只為了任務定製抓取姿勢的機器人，是如何修煉成仙的？

先審題，再行動

從前的機器人，大多是用保守的方式抓取工具——抓質心最穩。

簡單粗暴，但這並不一定適合它下一步要完成的操作。

△左為兩眼一抹黑，右為找得著北

畢竟，釘子要完全敲進去，易拉罐要掉下桌面去，才算成功。

所以，抓取的牢固程度，與適合任務的程度之間，需要一些妥協。

為了讓機器人，在執行任務的時候更有針對性，斯坦福團隊制定了四步方略如下——

一是，機器人要懂得，人類希望的結果是什麽。

二是，機器人要識別物體的特徵，知道它是好用的工具。

三是，找到合適的抓握方向，才能更有效地做任務。

四是，去吧，皮卡丘。

知之為知之，審題真的有用。

神經網絡兩步走，一抓取二操作

(灰色豎線) 機器人：

咦，任務是掃桌

咦，錘子長這樣

咦，這姿勢不錯

咦，易拉罐沒了

為了讓機器人選擇正確的姿勢，執行特定的任務，團隊設計的神經網絡結構，也並非一步登天。

△TOG = 任務導向的抓取

這個名叫TOG-Net的神經網絡，可以同時訓練兩個模型——

一是抓取模型，二是操作模型，對應每個任務 (錘擊/掃除) 的兩個階段。

優秀的抓取姿勢，是任務成功的一半。

給神經網絡輸入一幅圖，它就會提出幾種抓取姿勢。

抓取模型會為每個姿勢算出一個分數，代表抓取品質。

選擇分數最高的一種姿勢，給機器人去執行，並且把這個姿勢發送給操作模型。

這樣一來，系統就能根據已經采取的動作，來規劃後面的動作。

步步為營。

虛擬的訓練，現實的測試

神經網絡不是直接在真實世界裡訓練的，而是在一個名叫“Bullet(子彈) ”的開源物理模擬器裡訓練的。

虛擬世界裡，機器人可以嘗試無數次失敗，修煉出錘子的使用技能。

雖然，團隊也在思考，是不是直接進三次元修煉，也會同樣有效。

模擬器可以生成大量的模擬數據。

比如，這樣那樣的錘子。大體分為三類，T型、L型、X型。

當然，現實更複雜，所以，混合型也要包含進去。

除了工具之外，抓取姿勢的數據也非常重要，難點也在這裡。

因為，姿勢采樣的時候，抓握的點大多集中在工具的長邊上。許多姿勢之間，距離都非常小，太相似了，多樣性又不夠。

△適用於掃除的姿勢，作用點就不在長邊上

於是，團隊用了物體識別中，常見的非極大抑製(NMS) 方法，去除了一些與高分姿勢非常相近的姿勢。

這樣，訓練集裡面的姿勢各不相同，對訓練來說更有力。

另外，自我監督學習機制，會用每一次抓取成功和任務成功的標簽，來指導訓練過程。

當然，模擬器終究是模擬器，最後還是要把訓練成果搬到現實裡來。

三次元裡，機器人的夾具，是依靠深度攝影頭的點雲來工作的。

像這樣，稍稍超出常理的“錘子”，機器人還會給它轉體180度，再掃掉易拉罐。

駕輕就熟。

成果，萬變不離其宗

其實，來這裡的路上，各位已經陸陸續續看過一些測試的效果了。

不過，還是要強調，以下這些錘子，機器人在訓練的時候，都沒見過。

T型錘的掃除玩法。

???

L型錘的敲釘玩法。

混合錘，就是剛才那隻綠色腦袋的奇怪物體，再出現一次。

△要打架麽

隱隱感覺，機器人看到這樣不科學的工具，還是有些情緒。

不過，內心戲放在一邊，研究人員對AI和機器人一起做的任務，還是很滿意的。

除了直觀地看出，碾壓了某不知任務的算法，數據也很硬——

不管錘子是T型，L型，還是奇型。

也不管任務是錘擊，還是掃除。

成功率都比忽略任務的同行，高出許多。

實驗室裡的人類們

這項研究的團隊主要來自斯坦福電腦視覺與學習實驗室（SVL Lab），包括李飛飛、Silvio Savarese，和他們的學生們。

△房寬

論文的第一作者房寬是斯坦福大學讀博士，師從Silvio Savarese。在進入斯坦福大學之前，他在清華大學讀完了本科，當時曾經在微軟亞洲研究院機器學習組實習。

房寬在個人主頁上透露，去年夏天，他是在Google [X] Robotics度過的；而今年暑假，他要去Google Brain實習了~

其他幾位作者也都來自斯坦福大學，其中二作Yuke Zhu和Animesh Garg都是李飛飛和Savarese的學生，而Andrey Kurenkov師從Silvio和Ken Goldberg。

而最後兩位作者，也就是指導這項研究老師們，你們應該都很熟悉啦。

一位是電腦視覺界的國民女神李飛飛：

另一位，是她的丈夫，同是斯坦福大學副教授的Silvio Savarese。

不知道這張實驗室全家福裡，有沒有你熟悉的身影：

傳送門

Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision

Kuan Fang, Yuke Zhu, Animesh Garg, Andrey Kurenkov, Viraj Mehta, Li Fei-Fei, Silvio Savarese

*https://arxiv.org/abs/1806.09266

—完—