每日最新頭條.有趣資訊

神“腦補”!只要一段話,就知道你的說話手勢

乾明 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

防不勝防!現在, AI只需要聽你的聲音,就能知道你說話手勢了。

這項“腦補力”Max的新研究,來自UC伯克利大學等機構,被今年的學術頂級會議CVPR 2019收錄。

在他們的研究中,只需要輸入一段語音,就預測出了說話人的手勢,基本沒有什麽違和感。

不信?看看美國知名脫口秀Last Week Night主持人Oliver就知道了,他的手勢已經被AI研究透了。說話的時候,肩膀什麽角度,手指如何揮動,預測得一清二楚。

而且,不僅僅是坐著的脫口秀主持人,他們的研究也覆蓋了其他各種場景:

站著的脫口秀主持人,說話的手勢比較豪放:

比如老師上課時,使用這樣的手勢:

看到這項研究之後,就有網友評論稱,不知道它能不能預測川普的魔性手勢?

也有人表示,還好這只是項研究,如果能夠應用到現實中,那還了得?

以後打電話,一邊在電話裡說著愛對方,一邊卻搞著小動作,會暴露的。

怎麽實現的?

手勢,是人們在說話過程中自發發出的行為,用於補充語音信息,來幫助更好地傳遞說話人的想法。

通常情況下, 說話的時候,手勢與話語都是有關聯的。但想要從話語中獲取手勢信息,還需要學習音頻和手勢之間的映射關係。在實踐中,還有不少麻煩:

首先,手勢和話語是異步的,手勢可以出現在相應話語前、後或者期間。

其次,這是一項多模態的任務,說話人在不同的場合,說同樣的話,手勢可能不一致。

而且,每個人說話時的手勢也是非常特別的,不同的說話者傾向於採用不同的說話手勢。

為了解決這些問題,研究人員提出了一種時間跨模態翻譯的方法,採用端到端的方式將語音轉換成手勢,並使用了範圍非常大的時間背景來進行預測,以此克服異步性問題。

他們建立了一個由10名說話人組成的144個小時的大型個人視頻數據集。為了體現出模型的適用範圍,說話人的背景不盡相同:有電視節目主持人、大學教師和電視上的福音傳道者。

他們討論的話題也跨越了很多話題,從死亡哲學、化學到搖滾音樂歷史、時事評論以及閱讀聖經、古蘭經等等。

現在,這一數據集已經對外開放。

具體是如何從話語中預測出手勢的呢?請看下圖:

給定一段語音,通過翻譯模型(G)預測說話人與話語匹配的手勢動作(手和胳膊的運動)。

然後採用回歸函數(L1)從數據中提出訓練信號,並通過度抗性鑒別器來確保預測的只是在時間上與話語是一致的,並符合說話人的風格。

然後用一種現有的視頻合成方法來生成說話人說出這些話時的樣子。

整個卷積網絡,由一個音頻編碼器和一個1D UNet翻譯架構組成。音頻編碼器採用2D對數-梅爾頻譜圖作為輸入,並通過一系列卷積對其進行下采樣,從而產生與視頻采樣率相同的1D信號(15 Hz)。

UNet翻譯架構隨後通過L1回歸損失學會將該信號映射到手勢向量的時間堆棧。

之所以使用UNet架構進行翻譯,是因為它的瓶頸為網絡提供了過去和未來的時間上下文,允許高頻時間信息流過,從而能夠預測快速的手勢運動。

雖然L1回歸是從數據中提取訓練信號的唯一方法,但它存在回歸均值的已知問題,這種回歸均值會產生過度平滑的運動。為了解決這個問題,添加了一個以預測的姿態序列的差異為條件對抗性鑒別器。

研究團隊

這一研究的作者,大部分來自UC伯克利。

一作為Shiry Ginosar,UC伯克利計算機系的博士生。之前是人機互動領域的研究員,曾經在CMU計算機系做訪問學者。

共同一作為Amir Bar,是一名生活在伯克利的機器學習工程師。目前,在Zebra Medical Vision工作,致力於提高醫療保健領域的效率。

他們在論文中說,這一研究是朝著對話手勢的計算分析邁出的一步,之後也可以用於驅動虛擬任務的行為。

最後,送上傳送門:

論文地址:

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

源代碼即將公開:

https://github.com/amirbar/speech2gesture

小程序|全類別AI學習教程

AI社群|與優秀的人交流

喜歡就點「在看」吧 !

獲得更多的PTT最新消息
按讚加入粉絲團