受嬰兒抓鬮啟發：谷歌讓機器臂自學抓取物體，不用標注數據

谷歌大腦讓AI更像兒童了，至少在對象識別和感知方面是這樣。最近，他們和加州大學伯克利分校的學生研究了一種算法Grasp2Vec，通過觀察和操縱來“學習”物體的特徵。

在硬體方面，谷歌團隊與X Robotics合作，調教出一個能夠無目的、像嬰兒抓鬮一樣抓住物體的機器人手臂，並在訓練過程中讓它學習各種物體的表征，最終實現“有目的”地抓取某個確定的物體。

在這項工作公布幾個月之前，OpenAI展示過一種類似算法Dense Object Nets（DON），它能讓機器人發現、理解和操縱它們從未見過的物體。

谷歌這套機器人對於已經見過的物體，有80%識別並成功抓取的概率，對從未見過的物體也有59%的正確率。

從嬰兒獲得啟發

谷歌研究人員表示，這套算法是基於對自我監督的認知發展研究。

人類從嬰兒時代開始，就能夠識別喜歡的物品並將它們撿起來，在與周圍世界的互動中自我監督學習。因為我們知道自己做了什麽，並且會從實踐的結果中獲得認知。

在機器人技術中，人們正在積極研究這種類型的自我監督學習方法。因為有了它，在不需要大量訓練數據或人工監督的情況下，機器人系統也能夠進行學習。

機器人的獎勵函數

想讓機器人找到並抓取我們給定的物體，需要解決2個問題

1、對任意角度和位置擺放的物體，能夠與給定的照片進行對比，判斷二者是否為同一個物體。

2、在一堆雜亂擺放的物體中，找到與“目標”最相似的物體，排除其他錯誤選項。

實現這兩點，首先要對這套強化學習系統構建獎勵函數。

在強化學習（RL）的框架中，任務是否成功通過獎勵函數來衡量。通過最大化獎勵，機器人可以從頭開始自學各種各樣的技能。

然而，針對機器人對物體的感知理解，設計獎勵函數要困難得多。向機器人提供期望被抓起物體的圖片，在機器人試圖抓住該物體後，它會檢查抓取的內容。

因此任務的獎勵函數歸結為回答對象識別問題：這些對象是否與抓取的目標匹配？

接著，為了解決識別問題，需要設計一種感知系統。該系統能從沒有人為標注的非結構化影像數據中提取有意義的對象概念，以無監督的方式習得對物體的視覺感知力。

無監督學習算法的核心是，對數據做出結構性假設。然而，如果沒有對數據內容的進一步假設，則不足以讓AI學會分離出對象的表征。

而可以活動的機器人，恰好為表征學習提供了一個非常合適的條件。因為機器人可以操縱對象移動，為數據提供了變化因素。

尋找目標

對於從場景中識別被抓取對象，有以下3幅影像：

1）抓取前的場景影像，2）抓取後的場景影像，3）抓取物體本身的視圖。

如果定義一個從影像中提取“對象”的嵌入函數，它應該存在以下減法關係：

谷歌使用完全卷積架構和簡單的度量學習算法，來實現這種等式關係。在訓練時，將抓取前影像和抓取後影像放入密度空間特徵圖中，用“抓取前”和“抓取後”向量之間的差異表示一組對象。

這個差值向量和被抓取對象的相應向量表征，通過N配對目標（N-pairs object）歸於等價。

經過訓練，模型中會自然出現兩個有用的屬性：

1、對象的相似性

第一個屬性是向量嵌入之間的餘弦距離（即兩個向量之間夾角的餘弦）。它用來比較對象，並確定它們是否相同，可以用於實現強化學習的獎勵功能，並允許機器人在沒有人類提供的標簽情況下學習抓取。

2、本地化目標對象

第二個屬性是本地化影像空間中的查詢對象，可以通過組合場景空間映射和對象嵌入來實現。

通過獲取空間要素圖的元素乘積和對應於查詢對象的向量，我們可以找到空間映射中與查詢對象匹配的所有影像中的物體。

最終得到的“熱圖”，可用於規劃機器人尋找目標對象的方法。

谷歌將有目的的Grasp2Vec物體識別算法，與之前無目的的“機器人抓鬮”策略相結合，實現了對已認識物體80％的找到成功率。

最後，附上論文地址：

https://arxiv.org/pdf/1811.06964.pdf

—完—