機械栗 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
錘子是一個神奇的工具,各種畫風都能駕馭。
比如,神族玩錘子是這樣。
??
獸族玩錘子是這樣。
人族嘛……
??
誤。
回歸正片,今天來看看,機器人玩(個)錘子,且是自學成才,會有怎樣的畫風?
今天的機器人主角,誕生在斯坦福李飛飛夫婦的實驗室裡,擁有花樣錘技,還被機器人頂會RSS 2018選中了。
關於錘技,先看兩個小栗子。
任務一:把釘子敲進木盒
人類隻告訴機器人這個任務,沒有其他多餘的指示。使用什麽工具,用什麽姿勢完成,全靠機器人自己判斷。
??
它發現了桌上的一把錘子。
於是,抓起錘子的把手,把釘子敲了進去。
??
完成。
任務二:清除桌面的易拉罐
同樣,人類隻告訴機器人這個任務,沒有其他多餘的指示。使用什麽工具,用什麽姿勢完成,全靠機器人自己判斷。
於是,它又抓起了桌上的錘子。
??
同樣完成。
注意,兩個不同的任務,握錘姿勢不一樣(不一樣……)
??
這個機智的機器人,能夠根據不同的任務,決定應該如何握住手裡的錘子,以及用什麽方式完成指定的任務。
其實,就算是它從來沒見過的、骨骼清奇的錘子,也是一眼就會玩。
??
鋸都算上了,但這也只是很小的一部分。
而且,機器人腦子裡的神經網絡,是自我監督學習的,不需要人類傳授什麽秘籍。
這只為了任務定製抓取姿勢的機器人,是如何修煉成仙的?
先審題,再行動
從前的機器人,大多是用保守的方式抓取工具——抓質心最穩。
簡單粗暴,但這並不一定適合它下一步要完成的操作。
??
△左為兩眼一抹黑,右為找得著北
畢竟,釘子要完全敲進去,易拉罐要掉下桌面去,才算成功。
所以,抓取的牢固程度,與適合任務的程度之間,需要一些妥協。
??
為了讓機器人,在執行任務的時候更有針對性,斯坦福團隊制定了四步方略如下——
一是,機器人要懂得,人類希望的結果是什麽。
二是,機器人要識別物體的特徵,知道它是好用的工具。
三是,找到合適的抓握方向,才能更有效地做任務。
四是,去吧,皮卡丘。
??
知之為知之,審題真的有用。
神經網絡兩步走,一抓取二操作
(灰色豎線) 機器人:
咦,任務是掃桌
咦,錘子長這樣
咦,這姿勢不錯
咦,易拉罐沒了
為了讓機器人選擇正確的姿勢,執行特定的任務,團隊設計的神經網絡結構,也並非一步登天。
??
△TOG = 任務導向的抓取
這個名叫TOG-Net的神經網絡,可以同時訓練兩個模型——
一是抓取模型,二是操作模型,對應每個任務 (錘擊/掃除) 的兩個階段。
優秀的抓取姿勢,是任務成功的一半。
??
給神經網絡輸入一幅圖,它就會提出幾種抓取姿勢。
抓取模型會為每個姿勢算出一個分數,代表抓取品質。
選擇分數最高的一種姿勢,給機器人去執行,並且把這個姿勢發送給操作模型。
這樣一來,系統就能根據已經采取的動作,來規劃後面的動作。
步步為營。
虛擬的訓練,現實的測試
神經網絡不是直接在真實世界裡訓練的,而是在一個名叫“Bullet(子彈) ”的開源物理模擬器裡訓練的。
??
虛擬世界裡,機器人可以嘗試無數次失敗,修煉出錘子的使用技能。
雖然,團隊也在思考,是不是直接進三次元修煉,也會同樣有效。
模擬器可以生成大量的模擬數據。
??
比如,這樣那樣的錘子。大體分為三類,T型、L型、X型。
當然,現實更複雜,所以,混合型也要包含進去。
除了工具之外,抓取姿勢的數據也非常重要,難點也在這裡。
因為,姿勢采樣的時候,抓握的點大多集中在工具的長邊上。許多姿勢之間,距離都非常小,太相似了,多樣性又不夠。
??
△適用於掃除的姿勢,作用點就不在長邊上
於是,團隊用了物體識別中,常見的非極大抑製(NMS) 方法,去除了一些與高分姿勢非常相近的姿勢。
這樣,訓練集裡面的姿勢各不相同,對訓練來說更有力。
??
另外,自我監督學習機制,會用每一次抓取成功和任務成功的標簽,來指導訓練過程。
當然,模擬器終究是模擬器,最後還是要把訓練成果搬到現實裡來。
三次元裡,機器人的夾具,是依靠深度攝影頭的點雲來工作的。
??
像這樣,稍稍超出常理的“錘子”,機器人還會給它轉體180度,再掃掉易拉罐。
駕輕就熟。
成果,萬變不離其宗
其實,來這裡的路上,各位已經陸陸續續看過一些測試的效果了。
不過,還是要強調,以下這些錘子,機器人在訓練的時候,都沒見過。
??
T型錘的掃除玩法。
???
L型錘的敲釘玩法。
??
混合錘,就是剛才那隻綠色腦袋的奇怪物體,再出現一次。
??
△要打架麽
隱隱感覺,機器人看到這樣不科學的工具,還是有些情緒。
不過,內心戲放在一邊,研究人員對AI和機器人一起做的任務,還是很滿意的。
除了直觀地看出,碾壓了某不知任務的算法,數據也很硬——
??
不管錘子是T型,L型,還是奇型。
也不管任務是錘擊,還是掃除。
成功率都比忽略任務的同行,高出許多。
實驗室裡的人類們
這項研究的團隊主要來自斯坦福電腦視覺與學習實驗室(SVL Lab),包括李飛飛、Silvio Savarese,和他們的學生們。
??
△房寬
論文的第一作者房寬是斯坦福大學讀博士,師從Silvio Savarese。在進入斯坦福大學之前,他在清華大學讀完了本科,當時曾經在微軟亞洲研究院機器學習組實習。
房寬在個人主頁上透露,去年夏天,他是在Google [X] Robotics度過的;而今年暑假,他要去Google Brain實習了~
其他幾位作者也都來自斯坦福大學,其中二作Yuke Zhu和Animesh Garg都是李飛飛和Savarese的學生,而Andrey Kurenkov師從Silvio和Ken Goldberg。
而最後兩位作者,也就是指導這項研究老師們,你們應該都很熟悉啦。
??
一位是電腦視覺界的國民女神李飛飛:
??
另一位,是她的丈夫,同是斯坦福大學副教授的Silvio Savarese。
不知道這張實驗室全家福裡,有沒有你熟悉的身影:
??
傳送門
Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision
Kuan Fang, Yuke Zhu, Animesh Garg, Andrey Kurenkov, Viraj Mehta, Li Fei-Fei, Silvio Savarese
*https://arxiv.org/abs/1806.09266
—完—