每日最新頭條.有趣資訊

AI 實驗室:動起來的蒙娜麗莎你見過嗎?

你見過蒙娜麗莎動起來的樣子嗎?

雖然似乎沒有微笑時那麽好看,但不得不承認的是,動圖看起來確實跟畫中的蒙娜麗莎十分相似。

除了蒙娜麗莎,愛因斯坦和瑪麗蓮·夢露也可以從靜態圖變成不同表情的動圖。

這是莫斯科三星 AI 研究中心和斯科爾科沃科學技術研究院的最新成果。

跟之前的 Deepfake 技術類似,兩者都是從已有圖片或視頻中提取特徵,然後經過神經網絡的加工,生成了足可以假亂真的動態圖像或連貫視頻。

不同的是,Deepfake 需要大量訓練和數據才能生成假圖像,而這項基於卷積神經網絡和少樣本學習的新技術,只需要非常小的數據集,甚至只靠一張圖片,就可以生成圖片中主人公的連貫面部動圖,可以是說話的樣子,也可以是其他表情,大大提升了模型的訓練效率和廣泛性。

研究人員還展示了 AI 如何從兩張圖片中提取面都特徵,之後融合為一張圖片,與之前NVIDIA的 StyleGAN 技術類似。(每刷新它一次,你都將得到一個從未存在過的人)

該研究成果以預印本論文的形式發表於 Arxiv 上。

利用少樣本學習實現 AI 換臉

用 AI 實現換臉和造假人已經不是什麽新鮮事,幾年前大火的 Deepfake 應用和最近的NVIDIA StyleGAN 都可以實現。它們還可以繼續升級和改良,比如結合 Deepfake 和 GAN,從而獲得更厲害的“造假”效果。

只不過這類技術都有一個缺點,就是需要針對某人、某物或某類圖片(樣本)進行大量訓練,才能獲得最佳效果。

於是研究團隊希望打造一個“少樣本學習(few-shot learning)”模型,在訓練完成之後,可以用最少的目標圖片,實現對目標的模仿,尤其是模擬出目標人物說話時的樣子,包括面部表情、眼睛、神態、臉型和嘴型等變化。

少樣本學習是近年深度學習領域的熱門研究方向之一,旨在通過預訓練模型獲取先驗知識,改善傳統深度學習技術對海量數據的依賴,在數據缺失的情況下,還可以保持學習效率。

為了實現這一目標,研究人員採用了元學習(meta-learning)方法,讓 AI 具備自學能力。

換句話說,就是讓 AI 充分利用現有知識,來分析未來任務的特徵,從而學會“如何學習”。比如讓 AI 觀看張三說話時的面部表情,提取動作特徵(現有知識),再試著看著李四的臉提取特徵(新任務),然後模擬出李四說話時的面部動作。

建立元學習架構

他們創建了三套神經網絡來實現元學習架構。

第一個是嵌入器網絡(Embedder),負責將輸入視頻幀和人物面部特徵映射成多維度向量。他們使用了開源的面部特徵提取代碼。訓練視頻的每一幀都有對應的面部特徵圖,由不同顏色的線條勾勒出來,裡麵包含的五官信息與姿勢無關。

第二個是生成器網絡(Generator),將嵌入器網絡沒看過的新特徵圖和多維度向量作為輸入值,穿過到多個卷積層,輸出一個合成(視頻)幀——會使用參考視頻幀(ground truth)作為參考。生成器的訓練目的是讓合成幀和參考幀盡可能相似,更好地模擬目標對象的動態表情。

最後一個是鑒別器網絡(Discriminator),負責整合和處理原視頻幀、合成視頻幀、對應的面部特徵圖和訓練序列。它通過序列數,判斷合成幀與參考幀是否吻合,有多大差距,以及與面部特徵圖是否匹配。根據匹配程度,網絡會計算出一個真實性得分,顯示出兩者之間的差別。

圖 | 元學習架構的三套神經網絡

研究人員會通過(條件)鑒別器輸出的得分對三個網絡進行整體優化,感知和對抗損失函數都包含其中。

元學習模型構建完成後,研究人員使用了開源的 VoxCeleb1 和 VoxCeleb2 數據集,進行訓練和測試。前者擁有 10 萬多個視頻樣本,來自 1251 個名人,被用來與基準模型性能進行比較,後者擁有 100 多萬個樣本,來自 6112 個人,用於進行預訓練和測試新模型效果。

在小樣本學習的前提下,模型需要憑借預訓練的經驗,觀看一小段完全沒有見過的一個人的視頻,在每一幀中模仿這個人的面部表情,並與真正的表情對比,得出結果。AI 可以使用的幀越多(圖片越多),比如從 1 張圖增加到 32 張圖,得到的最終效果就越貼近真實。

圖 | 使用 1、8、32 張圖片訓練時,多個模型和基準圖片的結果對比

雖然從綜合評分來看,模型的準確度有時不及基準模型,但這是少樣本方法和模型本身導致的,還有進一步的提升空間。而且我們從結果也能看出,AI 模擬的整體效果還是可以接受的。

除此之外,研究人員還嘗試了靜圖變動圖,也就是我們最開始看到的蒙娜麗莎和愛因斯坦動圖。模型可以在一定程度上模仿出相似的表情,但背景圖案,尤其是有頭髮的地方,偶爾會出現小瑕疵。

不過瑕不掩瑜,這樣一個少樣本對抗網絡的元學習框架,非常適合在沒有大量數據的情況下實現 AI 換臉。而且還能啟發類似的後續研究,在該模型的基礎上改良和創新,比如通過改善面部特徵提取過程,讓人物表情模擬更加自然,或者加入眼神凝視等目前無法實現的高難特徵提取機制。

-End-

參考:

https://arxiv.org/pdf/1905.08233.pdf

https://www.youtube.com/watch?v=p1b5aiTrGzY

獲得更多的PTT最新消息
按讚加入粉絲團