每日最新頭條.有趣資訊

CMU 發明“聽音識物”機器人,準確率接近 80%

近年來,機器人各個方面的能力都在快速追趕人類,甚至在某些領域已經超過人類。在這一過程中,科學家和工程師們最喜歡在機器人身上打造出類似人類的感官模式,以更好地感知世界。

不過現階段的很多技術都隻專注於再現人類的視覺和觸覺,比如炙手可熱的計算機視覺技術。相比之下,複製人類其他感官的研究卻沒有太多進展。

卡內基梅隆大學(CMU)的研究小組近日發表一項新成果——探索如何利用聲音開發感知功能更先進的機器人。

他們將機器人命名為 Tilt-Bot,字面意思是 “傾斜機器人”,實際上它是一台通過傾斜托盤研究物體運動和聲音之間關係的機器,訓練後可以實現一定程度的 “聽音識物”,準確率接近 80%。研究成果以論文的形式發表在《機器人學:科學與系統》Robotics: Science and Systems上。

圖 | 傾斜機器人(來源:Gandhi, Gupta & Pinto.)

聽覺與視覺、觸覺一樣,都是人類收集信息的重要渠道。那麽聽覺可以為機器人帶來什麽呢?在回答這個問題之前,我們可以想象一下沒有聲音的世界。

在這種情況下,我們將極度依賴視覺系統收集信息。看視頻必須有字幕,與別人溝通必須用文字和手勢,永遠不知道背後是不是走過來一個人,除非轉過頭去看。

即使眼睛和手可以代勞,很多關鍵信息也無法準確傳達,比如語氣、聲調以及這些變量背後的潛台詞和深意。

機器人也面臨著相似的苦惱:感知物理世界的渠道太過單一,依賴性過強,因此無法有效利用普遍存在的信息。如果能有效收集聲音數據,再配合上視覺信息,它們對環境的感知力將大幅提升。

CMU 團隊以此為核心思想,設計出了 Tilt-Bot 機器人。它本質上是一台托盤機器人,由擁有多個關節的機械臂、托盤和固定裝置組成,托盤四周有邊框,上面貼著用於記錄物體撞擊的聲波捕捉裝置。

托盤的正上方還固定了一個攝影頭,用於捕捉物體運動軌跡,後期再與聲音變化相匹配。

圖 | 運動中的物體和聲音數據(來源:Gandhi, Gupta & Pinto.)

實驗時,研究人員會把不同的物體放到托盤中,機械臂隨後開始向前後左右傾斜,托盤中的物體也隨之移動。

如果傾斜過大,物體就會撞到邊框並發出響聲,撞擊力度越大,捕捉到的聲波波峰也就越高。

團隊總共收集了 60 個不同物體的 1.5 萬次互動記錄,每組記錄都包含匹配的視頻和音頻數據。他們用這些數據創建了全新的圖像 + 音頻數據集,用於訓練機器人在動作、圖像和聲音之間建立有意義的聯繫。

一個有趣的發現是,受過訓練的機器人只需要分析物體滑動和撞擊的聲音記錄,就可以區分不同物體。

即使同是金屬質地的螺絲刀和扳手也可以成功分辨,總體成功率接近 80%。這意味著訓練機器人學習物體的音頻表示形式是有意義的。

另一個更有價值的發現是,音頻有時比視覺提供的有價值信息更多,或者說適用面更廣。

由於聲音是以聲波的形式傳播的,其傳播軌跡更直觀,可以更有效地預測物體未來的運動軌跡,從而幫助機器人更好地控制物體。

用從未見過的物體測試機器人性能時,如果同時使用視頻和音頻數據,那麽它預測如何更好操控物體的表現相較於隻使用視頻時提升了 24%。

包含音頻和視頻的數據集可以幫助更多人開發機器人,尤其當它們被派去執行的任務需要兩者兼顧時。研究團隊表示現在的成果只是第一步,未來將探索聲音數據分析還能挖掘出機器人的哪些潛力,進一步提高它們的感知能力,並且將其運用到更實際的任務中。

“這些初步研究成果是令人興奮的,證明了機器僅憑聲音就能識別出物體類型,” 研究人員萊雷爾·平托(Lerrel Pinto)表示,“這樣一來,機器人執行任務的時候就可以更有針對性,比如學會區別對待空酒杯和滿酒杯。”

-End-

參考:

https://techxplore.com/news/2020-08-exploring-interactions-action-vision-robotics.html

獲得更多的PTT最新消息
按讚加入粉絲團