每日最新頭條.有趣資訊

造假AI又進化!只要一張照片,說話唱歌視頻自動生成

郭一璞 白安妮 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

曾造出無數“小視頻”、惡搞過多位明星的知名換臉神器Deepfakes,這下被降維打擊了。

這個新AI不再是篡改視頻了,而是直接把一張靜態的照片變成視頻。

像這樣,一張施瓦辛格:

開始說話了:

饒舌歌手Tupac Shakur:

也能張嘴了:

只要有一張靜態的人臉照片,甭管是誰,在這個新AI的驅動下,任意配上一段語音,就能張嘴說出來。

你也別以為這個AI只能給照片對口型,它還可以讓這個說話的人擁有喜怒哀樂各種情緒。

開心的:

難過的:

炸毛的:

連體態都符合不同情緒的狀態,是不是很符合說話的情緒?

這眉眼,這目光,這臉部肌肉,得拯救多少“面癱”演員啊!

這項研究來自帝國理工學院和三星,研究者們還準備了一套包含24個真假難辨的視頻的圖靈測試,我們簡單測了一下,只能猜對一半左右。

也就是說,這些AI生成的“真假美猴王”,足以蒙騙人類了。

不少網友聞之色變:

現在是拉斯普京唱Halo,以後會不會整出川普向墨西哥選戰啊,感覺怕怕的。

連科技媒體The Verge都評價說:

這樣的研究總讓人們擔憂,怕它會被用在謠言和政治宣傳上,實在是讓美國立法者們傷腦筋。當然,你也可以說這種在政治領域的威脅沒那麽嚴重,但deepfakes已經確確實實傷害了一些人,尤其是女性,在未經同意的情況下被用來製造了又難堪又羞辱的色情視頻。

也有人覺得,等技術普及之後會給做壞事的人掩蓋的理由:

等這技術成熟了,川普真的乾壞事的小視頻出來,他就可以輕描淡寫的說這是假視頻。

呵呵,真棒,以後壞人們被捏到把柄的時候,就都能說“沒有的事啦,是假視頻。”

多鑒別器結構

如何用一張照片做出連貫視頻?研究人員認為,這需要時序生成對抗網絡(Temporal GAN)來幫忙。

邏輯上不難理解,如果想讓生成的假視頻逼真,畫面上至少得有兩點因素必須滿足:

一是人臉圖像必須高質量,二是需要配合談話內容,協調嘴唇、眉毛等面部五官的位置。也不用動用複雜的面部捕捉技術,現在,隻用機器學習的方法,就能自動合成人臉。

這中間的秘訣,就在於時序生成對抗網絡,也就是Temporal GAN,此前在2018年提出過這個研究。

這是一個端對端的語音驅動的面部動畫合成模型,通過靜止圖像和一個語音生成人臉視頻。

在Temporal GAN中有兩個鑒別器,一個為幀鑒別器,確保生成的圖像清晰詳細,另一個是序列鑒別器,負責響應聽到的聲音並產生對應的面部運動,但效果並不那麽優異。

論文End-to-End Speech-Driven Facial Animation with Temporal GANs 地址:

https://arxiv.org/abs/1805.09313

在這項工作,研究人員借用這種時序生成對抗網絡,使用兩個時間鑒別器,對生成的視頻進行視聽對應,來生成逼真的面部動作。

同時還鼓勵模型進一步自發產生新的面部表情,比如眨眼等動作。

所以,最新版基於語音的人臉合成模型來了。模型由時間生成器3個鑒別器構成,結構如下:

這是一個井然有序的分工結構,生成器負責接收單個圖像和音頻信號作為輸入,並將其分割為0.2秒的重疊幀,每個音頻幀必須以視頻幀為中心。

這個系統使用了多個鑒別器來捕捉自然視頻的不同方面,各部分各司其職。

幀鑒別器(Frame Discriminator)是一個6層的卷積神經網絡,來決定一幀為真還是假,同時實現對說話人面部的高質量視頻重建。

序列鑒別器(Sequence Discriminator)確保各個幀能形成一個連貫的視頻,顯示自然運動。

同步鑒別器(Synchronization Discriminator)加強了對視聽同步的要求,決定畫面和音頻應該如何同步。它使用了兩種編碼器獲取音頻和視頻的嵌入信息,並基於歐式距離給出判斷。

同步鑒別器的結構如下:

就是這樣,無需造價高昂的面部捕捉技術,只需這樣一個網絡,就能將一張照片+一段音頻組合成流暢連貫的視頻了。

30多篇CVPR的作者

這項研究共有三位作者,分別為Konstantinos Vougioukas、Stavros Petridis和Maja Pantic,均來自倫敦帝國學院iBUG小組,主攻智能行為理解,其中二作和三作也是英國三星AI中心的員工。

一作Konstantinos Vougioukas2011年在佩特雷大學獲得電氣與計算機工程專業的本科學位後,奔赴愛丁堡大學攻讀人工智能方向的碩士學位。

現在,Konstantinos Vougioukas在倫敦帝國學院的Maja Pantic教授(本文三作)的指導下攻讀博士,主要研究方向為人類行為合成和面部行為合成。

Maja Pantic教授是iBUG小組的負責人,也是劍橋三星AI中心的研究主任,她在面部表情分析、人體姿態分析、情緒和社會信號是挺分析等方面發表過超過250篇論文,引用次數超過25000次。

從2005年開始,Maja Pantic帶學生發了30多篇CVPR(包含workshop)論文。

Maja Pantic教授主頁:

https://ibug.doc.ic.ac.uk/people/mpantic

傳送門

論文Realistic Speech-Driven Facial Animation with GANs地址:

https://arxiv.org/abs/1906.06337

項目主頁:

https://sites.google.com/view/facial-animation

GitHub:

https://github.com/DinoMan/speech-driven-animation

獲得更多的PTT最新消息
按讚加入粉絲團