史丹佛黑科技打造新型互動機器人：看視頻一學就會！

新智元報導

來源：Stanford

編輯：大明

【新智元導讀】現代機器人技術在運動類任務上的表現已經很驚豔，比如搬運重物、雪地行走等，但對於人和目標的互動式任務，比如餐桌擺盤、裝飾房間等多半還無能為力。近日，史丹佛大學研究人員就試圖通過大型視頻集來識別、表示和生成人與物體間的真實互動。

近幾年來，虛擬現實（VR）和機器人平台技術已經取得了巨大進步。這些平台現在可以讓我們體驗更加身臨其境的虛擬世界，讓機器人幫我們完成具有挑戰性的運動類任務，例如在雪中行走，搬運重物等。那麽，我們能否很快就能擁有可以會擺放餐桌、會做菜的機器人了呢？

很遺憾，這個目標現在離我們還有點遠。

為什麽？要弄清這個問題，需要從日常人類生活中的相互作用的多樣性說起。我們幾乎無時無刻不在進行活動，這些活動中包括簡單的動作，比如吃水果，或更複雜一些的，比如做飯。這些活動中都會發生人和周圍事物的相互作用，這個過程是多步的，會受到物理學、人類目標，日常習慣和生物力學的支配。

為了開發更具動態性的虛擬世界和更智能的機器人，我們需要教機器捕獲，理解和複製這些互動行為。我們可以以大型視頻集（如YouTube，Netflix，Facebook）的形式，廣泛提供了解這些互動所需的信息。

本文將描述從視頻中學習人與對象的多級互動活動所采取的一些初級步驟。主要討論生成適用於VR/ AR技術的人與對象互動動畫，研究如何使機器人能巧妙地對用戶行為和互動作出反應。

問題和挑戰

我們將研究重點放在人類進行的各種互動活動的子集上，常見的如家用桌上或辦公室中的人與物體的互動，比如用手拿取桌子上的目標。下圖中類似的桌面互動活動佔到我們日常行為中的很大一部分，但由於手-物體的配置空間很大，因此這些互動活動的模式和特徵難以捕獲。

上圖是我們收集的視頻中的一些桌面互動活動實例。我們收集了75個視頻（20個驗證視頻）。

我們的目標是通過學習大型視頻集來識別、表示和生成這些真實的互動。這必須要解決具有挑戰性的基於視覺的識別任務，產生與當前和過去的環境狀態一致、時間空間一致的多步互動。這些互動還應符合基本物理定律（比如不能穿透物體），人類習慣（比如不能端著帶杯柄的咖啡杯），並受到人體生物力學特徵的限制（比如夠不到太遠的物體）。

動作劃分（Action Plots）表示

人類活動的空間及其支持的相互作用存在無數可能。與對象的互動會導致連續的時空上的轉換，使互動模式難以形式化。不過，這些複雜的相互作用可以按照順序進行建模，即總結出從給定狀態到後續狀態的變化概率。

為了在這個順序模型中進行參數化表示，我們引入了一個稱為動作劃分（action plot）的表示，負責表示由手完成的、導致場景中的狀態發生改變的一系列動作。每個動作定義互動中的唯一階段，並表示為動作元組，每個動作元組由動作標簽、持續時間、參與對象、結束狀態和位置組成。這種離散化處理方式更加突出了人與物體相互作用的組合性質，同時抽象出時空變換的複雜度。

從視頻中識別人與物體的互動

學習生成包含多步驟互動行為的動作劃分，捕捉現實世界中人和物體互動行為的物理約束和因果關係。我們的目標是從人類場景互動的視頻集合中進行自動學習，因為這是一種快速，廉價、多功能的設置。為了完全表示動作劃分，需要首先獲取有關對象的實例、類別和位置，然後確定手的位置，最後進行動作檢測和分割，這些信息都要從視頻中提取，難度很大。

我們通過自動化的pipeline，利用計算機視覺領域的最新進展，在動作劃分任務上實現了最高的精度。

對象和實例跟蹤：動作劃分中的一個重要組成部分是對象類別、實例、位置和狀態。我們使用基於更快的R-CNN架構的物體檢測器來在每幀圖像中找到候選邊界框和標簽和對象位置，通過時間濾波減少檢測抖動。為了推斷對象的狀態，在每個邊界框的內容上訓練分類器。

手部檢測：由於大多數互動涉及手部，因此圖像處理目的是推斷出手在操縱哪些物體，以及手部遮擋時的物體位置。我們使用完全卷積神經網絡（FCN）架構來檢測手部動作。該網絡使用來自GTEA數據集中的手工掩模的數據進行訓練，並根據我們視頻集的子集進行微調。通過手部檢測和物體的運動方式，可以推斷出手的實時狀態（是空閑，還是被佔用），這是一個重要的信息。

動作劃分：要為每個視頻幀生成動作標簽，我們需要識別所涉及的動作以及它們的開始和結束時間（即動作分段）。我們採用兩階段方法：（1）為每幀圖像提取有意義的圖像特徵，（2）利用提取的特徵對每幀的動作標簽進行分類，並對動作進行分段劃分。為了增加動作劃分的魯棒性，使用LSTM網絡來暫時聚合信息。詳細信請參閱論文。

使用遞歸神經網絡生成

利用上文中描述的動作劃分表示可以對複雜的時空互動進行緊湊編碼，第2部分中的識別系統可以利用視頻創建動作劃分。現在的目標是使用視頻集合中提取的動作圖來學習生成新的互動。為了使問題易於處理，我們將動作元組中的時變和時不變參數進行解耦處理，更具體地說，是使用多對多RNN來建模，並利用與時間無關的高斯混合模型。

時間依賴性動作分割RNN：從自然語言處理中的類似序列問題中汲取靈感，使用狀態保持遞歸神經網絡（RNN）來模擬互動事件中與時間相關的參數。

動作分割RNN會學習並預測包括動作標簽、活動對象，對象狀態和持續時間組成的下一狀態。每個時間步長上的輸入會首先嵌入到指定大小的向量中。

與時間無關的物體位置模型：人和物體之間的許多相互作用需要通過建模，生成新的合理物體運動。物體的分布存在強烈的先驗性特徵。比如在杯子周圍存在打開的瓶子是很常見的，但在筆電電腦周圍就很少見。由於這些先驗性特徵對時間因素的依賴性不高，我們可以利用高斯混合模型（GMM）對視頻集合進行學習，並進行建模。

與時間無關的對象位置模型的學習和建模。此圖為從視頻集合中學習的可能對象位置的熱圖。

結果與應用實例

動畫合成：我們的方法可以學習單個動作的前後因果依賴性，所以可用於生成在訓練期間未見過的新的動作圖像，並將這些動作圖渲染成逼真的動畫，如下圖所示。利用這一點可以產生虛擬/擴增實境領域的新應用，向人們傳授新技能（比如衝咖啡）。

機器人仿真和運動規劃：可以在智能和反應環境中啟用應用，改善老年人和殘疾人的生活。我們開發了帶差動驅動器的機器杯。杯子的動作由實時識別、表示和生成pipeline驅動。杯子可以實時捕獲互動並編碼為動作圖像，預測可能的未來狀態。機器人使用這些預測來做出適當的反應。

下圖中的“召喚杯”顯示出用手抓杯子的過程。智能杯子會朝人手的方向移動，以防用戶伸手夠不到。但是，如果檢測到用戶的手中之前已經拿了一本書，智能杯就不會移動，因為我們的方法隱式學會了“一次隻讓手拿住一個物體”的物理約束。

“召喚杯”表現出了手、智能杯子和瓶子之間更複雜相互作用的實例。當手去移動裝滿的瓶子時，智能杯自動定位以便手將瓶中的水倒進杯裡。但是，當檢測到瓶子是空的時，智能杯不會做出反應。只有掌握複雜的人和對象之間的互動特徵，才能實現這種語義規劃。

討論與未來方向

本研究是識別、表示和生成合理的動態人與對象互動過程的第一步。我們提出了一種方法，通過識別視頻中的互動過程，使用動作劃分緊湊地表示出這些互動，並生成新的互動，從而自動學習視頻集合中的互動。雖然我們已經取得了很大的成果，但仍有一些明顯的局限性。

我們用以進行動作劃分的RNN無法捕獲的長時間範圍內的活動。目前的應用也僅限於桌上的互動式任務。在未來，我們計劃將研究範圍擴展至長期的互動活動上，並改善我們生成的互動的合理性。

我們的方法為學習生成人與對象的互動活動提供了堅實的基礎。但是要想創建更具沉浸感和動態的虛擬現實，還需要進行廣泛的研究，將來我們也許可以構建會做晚餐、會洗碗的機器人。

本研究的論文將於2019年 Eurographics會議上發表。

論文地址：

http://www.pirk.info/papers/Wang.etal-2019-LearningInteractions.pdf