MIT“滅霸手套”作者李昀燭、朱俊彥又一重磅研究

新智元報導

來源：techexplorist

編輯：張佳

【新智元導讀】摸一摸就知道長什麽樣、看一看就知道摸著是什麽感覺，你以為我說的是人？不，是AI。MIT研究人員開發出一種具有預測性人工智能的機器人，它可以通過觸摸來學習“看”，通過“看”來學習感覺，李昀燭和朱俊彥這兩位大神參與了此項研究。

我們人類可以通過簡單地觸摸來輕鬆地判斷物體的外形，這完全歸功於我們的觸覺，它使我們具備了這種能力。此外，我們當然也可以通過觀察物體來確定它的感受。

但做同樣的事情對於機器來說可能是困難的，這也是一個巨大的挑戰。即使是被編程有感官的機器人也無法做到這一點，它們不能把這些觸覺信號互換使用。

現在，麻省理工學院計算機科學與人工智能實驗室（CSAIL）的研究人員已經開發出一種具有預測性人工智能（AI）的機器人，它可以通過觸摸來學習“看”，通過“看”來學習感覺。

強強聯合，必出精品

在細講這篇論文之前，先來給大家隆重介紹一下這個研究團隊——均來自MIT CSAIL，一作是MIT CSAIL博士、曾經的北大學神李昀燭，二作是即將在CMU擔任助理教授、曾經的清華學神朱俊彥。

李昀燭是CSAIL的二年級博士生，他的研究領域是計算機視覺、機器學習和機器人技術，尤其是基於深度學習的機器人動力學建模和多模態感知。他本科畢業於北京大學，本科期間參加北京大學和史丹佛大學的多個實驗室研究，並以第一作者身份發表多篇計算機視覺和機器學習頂級會議論文。

朱俊彥目前是CSAIL的一名博士後研究員，他將於2020年秋季回到CMU擔任助理教授。朱俊彥主要從事計算機視覺、計算機圖形和機器學習的研究。他畢業於加州大學伯克利分校，2012 年獲得清華大學計算機科學系的工學學士學位，在 CMU 和 UC Berkeley 經過 5 年學習後，於 2017 年獲得 UC Berkeley 電氣工程與計算機科學系的博士學位。（參見：【AI新星耀名校】陳天奇、朱俊彥、金馳加盟CMU、普林斯頓）

李昀燭和朱俊彥曾經合作多次，最近最近爆火的MIT十美元“滅霸”手套也是二人合作完成的。這次又強強聯合，會出怎樣的精品呢？接下來看看這項新研究。

這項研究做了什麽？

研究團隊使用KUKA機器人手臂並添加了一個名為GelSight的特殊觸覺傳感器，該傳感器之前由Edward Adelson領導的另一個麻省理工學院小組設計。

圖1.數據采集裝置：（a）他們使用一個裝備了GelSight傳感器的機器人手臂來收集觸覺數據，並使用網絡攝影頭來捕捉對象互動場景的視頻。（b）凝膠接觸物體的圖示。交叉模式預測：在收集到的視覺觸覺對的基礎上，他們為幾個任務訓練了交叉模式預測網絡：（c）通過視覺學習感知（視覺觸摸）：從相應的視覺輸入和參考圖像預測觸摸信號；（d）通過觸摸來學習看（觸摸視覺）：通過觸摸預測視覺。預測的觸摸位置和ground truth位置（用（d）中的黃色箭頭標記）具有相似的感覺。

GelSight是一塊透明的合成橡膠板，其一面塗有油漆，含有微小的金屬斑點。在另一側，安裝攝影頭。該團隊使用網絡攝影頭記錄了近12000個被觸摸的200件物品的視頻，包括工具、家用產品、織物等。

圖2.物品集。這裡他們展示了訓練和測試中使用的物品集，包含了食品、工具、廚房用品、織物和文具等各種各樣的物品。

然後，研究人員將這些視頻分解為靜態幀並編制了“VisGel”，這是一個包含超過300萬個視覺/觸覺配對圖像的數據集。這些參考圖像隨後幫助機器人對物品和環境的細節進行編碼。

“ 通過觀察場景，我們的模型可以想象觸摸平坦表面或鋒利邊緣的感覺，” 李昀燭說：“ 僅通過觸摸，我們的模型可以單純從觸覺中預測與環境的相互作用。將這兩種感官結合在一起，可以增強機器人的能力並減少我們在涉及操縱和抓取物體的任務時可能需要的數據。”

現在，機器人只能識別受控環境中的物體。然而，一些細節，如物體的顏色和柔軟度，對於新的AI系統得出結論仍然是個挑戰。儘管如此，研究人員希望這種新方法能夠為製造環境中的“人-機器人”無縫結合鋪平道路，尤其是在缺乏視覺數據的任務中。

該團隊新AI系統的下一步是通過收集更多非結構化區域中的數據或使用MIT新設計的傳感器手套來構建更大的數據集，以便機器人可以在更多樣化的環境中工作。

“這是第一種可以令人信服地在視覺和觸摸信號之間進行轉換的方法，”加州大學伯克利分校的博士後Andrew Owens說：“ 像這樣的方法有可能對機器人技術非常有用，你需要回答諸如'這個物體是硬還是軟？'之類的問題，或者'如果我通過杯柄舉起這個杯子，我的握力有多好？' 這是一個非常具有挑戰性的問題，因為信號是如此不同，而且這個模型已經證明了它的強大能力。”

該論文會在加利福尼亞州長灘舉行的CVPR 上發表，接下來和大家分享一下這篇論文。

使用跨模態預測方法

研究人員提出了一種從觸覺預測視覺的跨模態預測方法，反之亦然。首先，他們將觸摸的規模和位置合並到他們的模型中。然後，使用數據再平衡機制來增加結果的多樣性。最後，通過從附近的輸入幀中提取時間信息，進一步提高了結果的時間一致性和準確性。

圖3顯示了一個示例輸入輸出組合，其中網絡將一系列視覺圖像和相應的參考作為輸入，並將觸覺預測合成為輸出。同樣的框架也可以應用於觸摸視覺。

實驗介紹

研究人員使用VisGel數據集對視覺和觸覺之間的跨模態預測任務的方法進行了評估。他們報告了評估預測不同方面的多個指標。

對於視覺觸覺預測，測量

（1）使用AMT的感知現實性：結果是否真實，

（2）接觸時刻：模型能否預測GelSight傳感器是否與物體接觸，

（3）標記物的變形：模型是否能夠跟蹤膜的變形。

對於觸摸視覺方向，他們使用

（1）通過AMT的視覺真實性和

（2）觸摸感來評估他們的模型：預測的觸摸位置是否與ground truth位置具有相似的感覺。他們還將有關完整參考指標的評估納入補充資料，並向所有基線提供參考圖像，因為它們對於處理比例差異至關重要（圖4）。

圖4.使用參考圖像。使用/不使用參考圖像的方法的定性結果。他們用參考圖像訓練的模型產生了更具視覺吸引力的圖像。

圖5.跨模態預測結果示例。（a）和（b）顯示了他們的模型和基線的視覺觸摸預測的兩個例子。（c）和（d）顯示觸摸視覺方向。在這兩種情況下，他們的結果看起來既真實又在視覺上類似於ground truth 目標圖像。在（c）和（d）中，他們的模型在沒有ground truth 位置標注的情況下進行訓練，可以準確地預測觸摸位置，與完全監督的預測方法相當。

圖6.Vision2Touch定量結果。上圖：檢測觸摸了物體表面的錯誤。使用時間提示可以顯著提高性能或他們的模型。下圖：根據圖像還原觸覺點位置的失真錯誤情況。他們的方法仍然有效。

圖7.Vision2Touch檢測接觸時刻。顯示了標記隨時間的變形，由所有黑色標記的平均移動決定。較高的變形意味著物體與較大的力接觸。上圖：三種典型案例，其中（a）所有方法都可以推斷出接觸時刻，（b）沒有時間線索的方法無法捕捉接觸時刻，（c）沒有時間線索的方法會產生錯位結果。下圖：我們展示了案例（c）中的幾個視覺和觸摸框架。我們的模型具有時間線索可以更準確地預測GelSight的變形。標記的運動為紅色顯示以獲得更好的可視化效果。

表2.Vision2Touch AMT “真實vs虛假”測試。與pix2pix和基線相比，他們的方法可以合成更逼真的觸覺信號，既適用於已知物品，也適用於未知物品。

表3. Touch2Vision“感覺相似vs感覺不同”測試。他們的自我監督方法明顯優於基線。其精度可與用ground truth 標注訓練的完全監督預測方法相媲美。

表4. Touch2Vision AMT“真實vs虛假”測試。儘管pix2pix在看不見的對象中獲得了最高分，但由於mode collapse，它總是產生相同的圖像。

討論

在這項研究中，研究團隊提出用條件對抗網絡在視覺和觸覺之間建立聯繫。在與世界互動時，人類嚴重依賴於兩種感官模式。他們的模型可以為已知對象和未知對象提供有希望的跨模態預測結果。在未來，視覺-觸覺交叉模式連接可以幫助下遊視覺和機器人應用，例如在弱光環境中的物體識別和抓取，以及物理場景理解。

參考鏈接

https://www.techexplorist.com/new-ai-system-gives-robots-ability-visualize-objects-using-touch/24143/