CMU 發明“聽音識物”機器人，準確率接近 80％

近年來，機器人各個方面的能力都在快速追趕人類，甚至在某些領域已經超過人類。在這一過程中，科學家和工程師們最喜歡在機器人身上打造出類似人類的感官模式，以更好地感知世界。

不過現階段的很多技術都隻專注於再現人類的視覺和觸覺，比如炙手可熱的計算機視覺技術。相比之下，複製人類其他感官的研究卻沒有太多進展。

卡內基梅隆大學（CMU）的研究小組近日發表一項新成果——探索如何利用聲音開發感知功能更先進的機器人。

他們將機器人命名為 Tilt-Bot，字面意思是 “傾斜機器人”，實際上它是一台通過傾斜托盤研究物體運動和聲音之間關係的機器，訓練後可以實現一定程度的 “聽音識物”，準確率接近 80%。研究成果以論文的形式發表在《機器人學：科學與系統》Robotics: Science and Systems上。

圖 | 傾斜機器人（來源：Gandhi, Gupta & Pinto.）

聽覺與視覺、觸覺一樣，都是人類收集信息的重要渠道。那麽聽覺可以為機器人帶來什麽呢？在回答這個問題之前，我們可以想象一下沒有聲音的世界。

在這種情況下，我們將極度依賴視覺系統收集信息。看視頻必須有字幕，與別人溝通必須用文字和手勢，永遠不知道背後是不是走過來一個人，除非轉過頭去看。

即使眼睛和手可以代勞，很多關鍵信息也無法準確傳達，比如語氣、聲調以及這些變量背後的潛台詞和深意。

機器人也面臨著相似的苦惱：感知物理世界的渠道太過單一，依賴性過強，因此無法有效利用普遍存在的信息。如果能有效收集聲音數據，再配合上視覺信息，它們對環境的感知力將大幅提升。

CMU 團隊以此為核心思想，設計出了 Tilt-Bot 機器人。它本質上是一台托盤機器人，由擁有多個關節的機械臂、托盤和固定裝置組成，托盤四周有邊框，上面貼著用於記錄物體撞擊的聲波捕捉裝置。

托盤的正上方還固定了一個攝影頭，用於捕捉物體運動軌跡，後期再與聲音變化相匹配。

圖 | 運動中的物體和聲音數據（來源：Gandhi, Gupta & Pinto.）

實驗時，研究人員會把不同的物體放到托盤中，機械臂隨後開始向前後左右傾斜，托盤中的物體也隨之移動。

如果傾斜過大，物體就會撞到邊框並發出響聲，撞擊力度越大，捕捉到的聲波波峰也就越高。

團隊總共收集了 60 個不同物體的 1.5 萬次互動記錄，每組記錄都包含匹配的視頻和音頻數據。他們用這些數據創建了全新的圖像 + 音頻數據集，用於訓練機器人在動作、圖像和聲音之間建立有意義的聯繫。

一個有趣的發現是，受過訓練的機器人只需要分析物體滑動和撞擊的聲音記錄，就可以區分不同物體。

即使同是金屬質地的螺絲刀和扳手也可以成功分辨，總體成功率接近 80%。這意味著訓練機器人學習物體的音頻表示形式是有意義的。

另一個更有價值的發現是，音頻有時比視覺提供的有價值信息更多，或者說適用面更廣。

由於聲音是以聲波的形式傳播的，其傳播軌跡更直觀，可以更有效地預測物體未來的運動軌跡，從而幫助機器人更好地控制物體。

用從未見過的物體測試機器人性能時，如果同時使用視頻和音頻數據，那麽它預測如何更好操控物體的表現相較於隻使用視頻時提升了 24%。

包含音頻和視頻的數據集可以幫助更多人開發機器人，尤其當它們被派去執行的任務需要兩者兼顧時。研究團隊表示現在的成果只是第一步，未來將探索聲音數據分析還能挖掘出機器人的哪些潛力，進一步提高它們的感知能力，並且將其運用到更實際的任務中。

“這些初步研究成果是令人興奮的，證明了機器僅憑聲音就能識別出物體類型，” 研究人員萊雷爾·平托（Lerrel Pinto）表示，“這樣一來，機器人執行任務的時候就可以更有針對性，比如學會區別對待空酒杯和滿酒杯。”

-End-

參考：

https://techxplore.com/news/2020-08-exploring-interactions-action-vision-robotics.html