神“腦補”！只要一段話，就知道你的說話手勢

乾明發自凹非寺

量子位報導 | 公眾號 QbitAI

防不勝防！現在， AI只需要聽你的聲音，就能知道你說話手勢了。

這項“腦補力”Max的新研究，來自UC伯克利大學等機構，被今年的學術頂級會議CVPR 2019收錄。

在他們的研究中，只需要輸入一段語音，就預測出了說話人的手勢，基本沒有什麽違和感。

不信？看看美國知名脫口秀Last Week Night主持人Oliver就知道了，他的手勢已經被AI研究透了。說話的時候，肩膀什麽角度，手指如何揮動，預測得一清二楚。

而且，不僅僅是坐著的脫口秀主持人，他們的研究也覆蓋了其他各種場景：

站著的脫口秀主持人，說話的手勢比較豪放：

比如老師上課時，使用這樣的手勢：

看到這項研究之後，就有網友評論稱，不知道它能不能預測川普的魔性手勢？

也有人表示，還好這只是項研究，如果能夠應用到現實中，那還了得？

以後打電話，一邊在電話裡說著愛對方，一邊卻搞著小動作，會暴露的。

怎麽實現的？

手勢，是人們在說話過程中自發發出的行為，用於補充語音信息，來幫助更好地傳遞說話人的想法。

通常情況下，說話的時候，手勢與話語都是有關聯的。但想要從話語中獲取手勢信息，還需要學習音頻和手勢之間的映射關係。在實踐中，還有不少麻煩：

首先，手勢和話語是異步的，手勢可以出現在相應話語前、後或者期間。

其次，這是一項多模態的任務，說話人在不同的場合，說同樣的話，手勢可能不一致。

而且，每個人說話時的手勢也是非常特別的，不同的說話者傾向於採用不同的說話手勢。

為了解決這些問題，研究人員提出了一種時間跨模態翻譯的方法，採用端到端的方式將語音轉換成手勢，並使用了範圍非常大的時間背景來進行預測，以此克服異步性問題。

他們建立了一個由10名說話人組成的144個小時的大型個人視頻數據集。為了體現出模型的適用範圍，說話人的背景不盡相同：有電視節目主持人、大學教師和電視上的福音傳道者。

他們討論的話題也跨越了很多話題，從死亡哲學、化學到搖滾音樂歷史、時事評論以及閱讀聖經、古蘭經等等。

現在，這一數據集已經對外開放。

具體是如何從話語中預測出手勢的呢？請看下圖：

給定一段語音，通過翻譯模型（G）預測說話人與話語匹配的手勢動作（手和胳膊的運動）。

然後採用回歸函數（L1）從數據中提出訓練信號，並通過度抗性鑒別器來確保預測的只是在時間上與話語是一致的，並符合說話人的風格。

然後用一種現有的視頻合成方法來生成說話人說出這些話時的樣子。

整個卷積網絡，由一個音頻編碼器和一個1D UNet翻譯架構組成。音頻編碼器採用2D對數-梅爾頻譜圖作為輸入，並通過一系列卷積對其進行下采樣，從而產生與視頻采樣率相同的1D信號(15 Hz)。

UNet翻譯架構隨後通過L1回歸損失學會將該信號映射到手勢向量的時間堆棧。

之所以使用UNet架構進行翻譯，是因為它的瓶頸為網絡提供了過去和未來的時間上下文，允許高頻時間信息流過，從而能夠預測快速的手勢運動。

雖然L1回歸是從數據中提取訓練信號的唯一方法，但它存在回歸均值的已知問題，這種回歸均值會產生過度平滑的運動。為了解決這個問題，添加了一個以預測的姿態序列的差異為條件對抗性鑒別器。

研究團隊

這一研究的作者，大部分來自UC伯克利。

一作為Shiry Ginosar，UC伯克利計算機系的博士生。之前是人機互動領域的研究員，曾經在CMU計算機系做訪問學者。

共同一作為Amir Bar，是一名生活在伯克利的機器學習工程師。目前，在Zebra Medical Vision工作，致力於提高醫療保健領域的效率。

他們在論文中說，這一研究是朝著對話手勢的計算分析邁出的一步，之後也可以用於驅動虛擬任務的行為。

最後，送上傳送門：

論文地址：

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

源代碼即將公開：

https://github.com/amirbar/speech2gesture

—完—

小程序|全類別AI學習教程

AI社群|與優秀的人交流

喜歡就點「在看」吧 !