每日最新頭條.有趣資訊

MIT腦洞研究!只聽6秒語音,就知道你長什麽樣

邊策 問耕 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

CSAIL所在的MIT Building 32

只聽聲音,就能知道一個人長什麽樣?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能實驗室),最近就發布了這樣一個令人驚訝的研究。只需要聽6秒的聲音片段,AI就能推斷出說話者的容貌。

詳細解釋之前,咱們一起試試先。

聽聽下面這段錄音,一共有六段。你能想象出來,說話的人長什麽樣麽?

怎麽樣?你行麽?

MIT研究人員,設計和訓練的神經網絡Speech2Face,就能通過短短的語音片段,推測出說話者的年齡、性別、種族等等多重屬性,然後重建說話人的面部。

下面就是AI聽聲識臉,給出的結果:

左邊一列是真實的照片,右邊一列是神經網絡根據聲音推斷出來的長相。

講真,這個效果讓我們佩服。

這篇論文也入圍了今年的學術頂級會議CVPR 2019。

當然這個研究也會引發一些隱私方面的擔憂。不過研究團隊在論文中特別聲明,這個神經網絡不追求完全精確還原單一個體的臉部圖像。

不同的語言也有影響。論文中舉了一個案例,同一男子分別說中文和英文,AI卻分別還原出了不同的面孔樣貌。當然,這也跟口音、發聲習慣等相關。

另外,研究團隊也表示,目前這套系統對還原白人和東亞人的面孔效果更好。可能由於印度和黑人的數據較少,還原效果還有待進一步提高。

原理

從聲音推斷一個人的長相不是一種玄學,平時我們在打電話時會根據對方的聲音腦補出相貌特徵。

這是因為,年齡、性別、嘴巴形狀、面部骨骼結構,所有這些都會影響人發出的聲音。此外,語言、口音、速度通常會體現出一個的民族、地域、文化特徵。

AI正是根據語音和相貌的關聯性做出推測。

為此,研究人員提取了幾百萬個YouTube視頻,通過訓練,讓深度神經網絡學習聲音和面部的相關性,找到說話的人一些基本特徵,比如年齡、性別、種族等,並還原出相貌。

而且在這個過程中,不需要人類標記視頻,由模型自我監督學習。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機上,可能是Speech2Face未來的一種實際應用。

模型結構

Speech2Face模型是如何還原人臉的,請看下圖:

給這個網絡輸入一個複雜的聲譜圖,它將會輸出4096-D面部特徵,然後使用預訓練的面部解碼器將其還原成面部的標準圖像。

訓練模塊在圖中用橙色部分標記。在訓練過程中,Speech2Face模型不會直接用人臉圖像與原始圖像進行對比,而是與原始圖像的4096-D面部特徵對比,省略了恢復面部圖像的步驟。

在訓練完成後,模型在推理過程中才會使用面部解碼器恢復人臉圖像。

訓練過程使用的是AVSpeech數據集,它包含幾百萬個YouTube視頻,超過10萬個人物的語音-面部數據。

在具體細節上,研究使用的中每個視頻片段開頭最多6秒鐘的音頻,並從中裁剪出人臉面部趨於,調整到224×224像素。

從原始圖像提取特徵重建的人臉,以及從聲音推測的人臉

之前,也有人研究過聲音推測面部特徵,但都是從人的聲音預測一些屬性,然後從數據庫中獲取最適合預測屬性的圖像,或者使用這些屬性來生成圖像。

然而,這種方法存在局限性,需要有標簽來監督學習,系統的魯棒性也較差。

由於人臉圖像中面部表情、頭部姿態、遮擋和光照條件的巨大變化,想要獲得穩定的輸出結果,Speech2Face人臉模型的設計和訓練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用,模型必須學會剔除數據中許多不相關的變化因素,並隱含地提取人臉有意義的內部表示。

為了解決這些困難,模型不是直接得到人臉圖像,而是回歸到人臉的低維中間表示。更具體地說,是利用人臉識別模型VGG-Face,並從倒數第二層的網絡提取一個4096-D面部特徵。

模型的pipeline由兩個主要部分組成:

1、語音編碼器

語音編碼器模塊是一個CNN,將輸入的語音聲譜圖轉換成偽人臉特徵,並預測面部的低維特徵,隨後將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特徵,並以標準形式(正面和中性表情)產生面部圖像。

在訓練過程中,人臉解碼器是固定的,隻訓練預測人臉特徵的語音編碼器。語音編碼器是作者自己設計和訓練的模型,而面部解碼器使用的是前人提出的模型。

將實驗結果更進一步,Speech2Face還能用於人臉檢索。把基於語音的人臉預測結果與數據庫中的人臉進行比較,系統將給出5個最符合的人臉照片。

不足之處

若根據語言來預測種族,那麽一個人說不同的語言會導致不同的預測結果嗎?

研究人員讓一個亞洲男性分別說英語和漢語,結果分別得到了2張不同的面孔。

模型有時候也能正確預測結果,比如讓一個亞洲小女孩說英文,雖然恢復出的圖像和本人有很大差距,但仍可以看出黃種人的面部特徵。

研究人員表示,這個小女孩並沒有明顯的口音特徵,所以他們的模型還要進一步檢查來確定對語言的依賴程度。

在其他一些情況下,模型也會“翻車”。比如:變聲期之前的兒童,會導致模型誤判性別發生錯誤;口音與種族特徵不匹配;將老人識別為年輕人,或者是年輕人識別為老人。

作者團隊

這個研究的作者,大部分來自MIT CSAIL。

一作Tae-Hyun Oh是在CSAIL工作的Postdoctoral Associate,這個韓國小哥博士畢業於韓國科學技術院(KAIST),本科畢業於韓國光雲大學(KWU)。他還曾經在微軟亞洲研究院實習。

二作Tali Dekel現在是Google的一位研究員,之前也是CSAIL實驗室的Postdoctoral Associate。她博士畢業於以色列的特拉維夫大學。

Tali Dekel還有一篇論文,也入選了今年的CVPR 2019,而且還拿到了Oral。在那篇論文裡,她也是二作的身份。

這篇論文昨天我們也報導了

~

今年的CVPR將於6月16日在加州長灘召開。

最後,給一下傳送門。

論文地址在此:

https://arxiv.org/pdf/1905.09773.pdf

項目地址在此:

https://speech2face.github.io/

作者系網易新聞·網易號“各有態度”簽約作者

訂閱AI內參,獲取AI行業資訊

加入社群

量子位AI社群開始招募啦,社群矩陣:AI討論群AI+行業群AI技術群

目前已有4萬AI行業從業者、愛好者加入,AI技術群更有來自海內外各大高校實驗室大牛各明星AI公司工程師等。自由互相交流AI發展現狀及趨勢

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字“微信群”,獲取入群方式。(技術群與AI+行業群需經過審核,審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。

喜歡就點「好看」吧 !

獲得更多的PTT最新消息
按讚加入粉絲團