每日最新頭條.有趣資訊

玩個錘子,李飛飛夫婦團隊的最新研究

機械栗 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

錘子是一個神奇的工具,各種畫風都能駕馭。

比如,神族玩錘子是這樣。

??

獸族玩錘子是這樣。

人族嘛……

??

誤。

回歸正片,今天來看看,機器人玩(個)錘子,且是自學成才,會有怎樣的畫風?

今天的機器人主角,誕生在斯坦福李飛飛夫婦的實驗室裡,擁有花樣錘技,還被機器人頂會RSS 2018選中了。

關於錘技,先看兩個小栗子。

任務一:把釘子敲進木盒

人類隻告訴機器人這個任務,沒有其他多餘的指示。使用什麽工具,用什麽姿勢完成,全靠機器人自己判斷。

??

它發現了桌上的一把錘子。

於是,抓起錘子的把手,把釘子敲了進去。

??

完成。

任務二:清除桌面的易拉罐

同樣,人類隻告訴機器人這個任務,沒有其他多餘的指示。使用什麽工具,用什麽姿勢完成,全靠機器人自己判斷。

於是,它又抓起了桌上的錘子。

??

同樣完成。

注意,兩個不同的任務,握錘姿勢不一樣(不一樣……)

??

這個機智的機器人,能夠根據不同的任務,決定應該如何握住手裡的錘子,以及用什麽方式完成指定的任務。

其實,就算是它從來沒見過的、骨骼清奇的錘子,也是一眼就會玩。

??

鋸都算上了,但這也只是很小的一部分。

而且,機器人腦子裡的神經網絡,是自我監督學習的,不需要人類傳授什麽秘籍。

這只為了任務定製抓取姿勢的機器人,是如何修煉成仙的?

先審題,再行動

從前的機器人,大多是用保守的方式抓取工具——抓質心最穩。

簡單粗暴,但這並不一定適合它下一步要完成的操作。

??

左為兩眼一抹黑,右為找得著北

畢竟,釘子要完全敲進去,易拉罐要掉下桌面去,才算成功

所以,抓取的牢固程度,與適合任務的程度之間,需要一些妥協。

??

為了讓機器人,在執行任務的時候更有針對性,斯坦福團隊制定了四步方略如下——

一是,機器人要懂得,人類希望的結果是什麽。

二是,機器人要識別物體的特徵,知道它是好用的工具。

三是,找到合適的抓握方向,才能更有效地做任務。

四是,去吧,皮卡丘。

??

知之為知之,審題真的有用。

神經網絡兩步走,一抓取二操作

(灰色豎線) 機器人:

咦,任務是掃桌

咦,錘子長這樣

咦,這姿勢不錯

咦,易拉罐沒了

為了讓機器人選擇正確的姿勢,執行特定的任務,團隊設計的神經網絡結構,也並非一步登天。

??

TOG = 任務導向的抓取

這個名叫TOG-Net的神經網絡,可以同時訓練兩個模型——

一是抓取模型,二是操作模型,對應每個任務 (錘擊/掃除) 的兩個階段。

優秀的抓取姿勢,是任務成功的一半。

??

給神經網絡輸入一幅圖,它就會提出幾種抓取姿勢。

抓取模型會為每個姿勢算出一個分數,代表抓取品質。

選擇分數最高的一種姿勢,給機器人去執行,並且把這個姿勢發送給操作模型

這樣一來,系統就能根據已經采取的動作,來規劃後面的動作。

步步為營。

虛擬的訓練,現實的測試

神經網絡不是直接在真實世界裡訓練的,而是在一個名叫“Bullet(子彈) ”的開源物理模擬器裡訓練的。

??

虛擬世界裡,機器人可以嘗試無數次失敗,修煉出錘子的使用技能。

雖然,團隊也在思考,是不是直接進三次元修煉,也會同樣有效。

模擬器可以生成大量的模擬數據

??

比如,這樣那樣的錘子。大體分為三類,T型L型X型

當然,現實更複雜,所以,混合型也要包含進去。

除了工具之外,抓取姿勢的數據也非常重要,難點也在這裡。

因為,姿勢采樣的時候,抓握的點大多集中在工具的長邊上。許多姿勢之間,距離都非常小,太相似了,多樣性又不夠。

??

適用於掃除的姿勢,作用點就不在長邊上

於是,團隊用了物體識別中,常見的非極大抑製(NMS) 方法,去除了一些與高分姿勢非常相近的姿勢。

這樣,訓練集裡面的姿勢各不相同,對訓練來說更有力。

??

另外,自我監督學習機制,會用每一次抓取成功任務成功的標簽,來指導訓練過程。

當然,模擬器終究是模擬器,最後還是要把訓練成果搬到現實裡來。

三次元裡,機器人的夾具,是依靠深度攝影頭點雲來工作的。

??

像這樣,稍稍超出常理的“錘子”,機器人還會給它轉體180度,再掃掉易拉罐。

駕輕就熟。

成果,萬變不離其宗

其實,來這裡的路上,各位已經陸陸續續看過一些測試的效果了。

不過,還是要強調,以下這些錘子,機器人在訓練的時候,都沒見過。

??

T型錘的掃除玩法。

???

L型錘的敲釘玩法。

??

混合錘,就是剛才那隻綠色腦袋的奇怪物體,再出現一次。

??

要打架麽

隱隱感覺,機器人看到這樣不科學的工具,還是有些情緒。

不過,內心戲放在一邊,研究人員對AI和機器人一起做的任務,還是很滿意的。

除了直觀地看出,碾壓了某不知任務的算法,數據也很硬——

??

不管錘子是T型,L型,還是奇型。

也不管任務是錘擊,還是掃除。

成功率都比忽略任務的同行,高出許多。

實驗室裡的人類們

這項研究的團隊主要來自斯坦福電腦視覺與學習實驗室(SVL Lab),包括李飛飛、Silvio Savarese,和他們的學生們。

??

房寬

論文的第一作者房寬是斯坦福大學讀博士,師從Silvio Savarese。在進入斯坦福大學之前,他在清華大學讀完了本科,當時曾經在微軟亞洲研究院機器學習組實習。

房寬在個人主頁上透露,去年夏天,他是在Google [X] Robotics度過的;而今年暑假,他要去Google Brain實習了~

其他幾位作者也都來自斯坦福大學,其中二作Yuke Zhu和Animesh Garg都是李飛飛和Savarese的學生,而Andrey Kurenkov師從Silvio和Ken Goldberg。

而最後兩位作者,也就是指導這項研究老師們,你們應該都很熟悉啦。

??

一位是電腦視覺界的國民女神李飛飛:

??

另一位,是她的丈夫,同是斯坦福大學副教授的Silvio Savarese。

不知道這張實驗室全家福裡,有沒有你熟悉的身影:

??

傳送門

Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision

Kuan Fang, Yuke Zhu, Animesh Garg, Andrey Kurenkov, Viraj Mehta, Li Fei-Fei, Silvio Savarese

*https://arxiv.org/abs/1806.09266

獲得更多的PTT最新消息
按讚加入粉絲團