每日最新頭條.有趣資訊

蒙娜麗莎一鍵“復活”!三星AI Lab:只需一張圖能合成動畫

新智元報導

來源:arxiv

編輯:肖琴、張佳

【新智元導讀】還記得哈利?波特第一次來到霍格沃茨看到牆上那些既會動又會說話的掛畫是多麽驚訝嗎?如果我們可以將掛畫 “復活”,和 500 多年前的蒙娜麗莎來場穿越時空的對話會怎樣呢?感謝 AI 技術,把畫 “復活” 不再是夢!

名畫《蒙娜麗莎的微笑》,會動了!

夢娜麗莎轉過頭,嘴裡說著話,微微眨了眨眼,臉上帶著溫婉的微笑。

更牛逼的是,該技術完全無需3D建模,僅需一張圖片就能訓練出惟妙惟肖的動畫。研究人員稱這種學習方式為“few-shot learning"。

當然,如果有多幾張照片——8張或32張——創造出來動圖效果就更逼真了。比如:

愛因斯坦給你講物理:

瑪麗蓮夢露和你 flirt:

本周,三星AI實驗室的研究人員發表了一篇題為 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的論文,概述了這種技術。該技術基於卷積神經網絡,其目標是獲得一個輸入源圖像,模擬目標輸出視頻中某個人的運動,從而將初始圖像轉換為人物正在說話的短視頻。

論文一發表馬上引起轟動,畢竟這項技術創造了巨大的想象空間!

類似這樣的項目有很多,所以這個想法並不特別新穎。但在這篇論文中,最有趣的是,該系統不需要大量的訓練示例,而且系統只需要看一次圖片就可以運行。這就是為什麽它讓《蒙娜麗莎》活起來。

3個神經網絡,讓蒙娜麗莎活起來

這項技術採用“元學習”架構,如下圖所示:

具體來說,涉及三個神經網絡:

首先,嵌入式網絡映射輸入圖像中的眼睛、鼻子、嘴巴大小等信息,並將其轉換為向量;

其次,生成式網絡通過繪製人像的面部地標(face landmarks)來複製人在視頻中的面部表情;

第三,鑒別器網絡將來自輸入圖像的嵌入向量粘貼到目標視頻的landmark上,使輸入圖像能夠模擬視頻中的運動。

最後,計算“真實性得分”。該分數用於檢查源圖像與目標視頻中的姿態的匹配程度。

元學習過程:只需1張輸入圖像

研究人員使用VoxCeleb2數據集對這個模型進行了預訓練,這是一個包含許多名人頭像的數據庫。在這個過程中,前面描述的過程是一樣的,但是這裡的源圖像和目標圖像只是同一視頻的不同幀。

因此,這個系統不是讓一幅畫去模仿視頻中的另一個人,而是有一個可以與之比較的ground truth。通過持續訓練,直到生成的幀與訓練視頻中的真實幀十分相似為止。

預訓練階段允許模型在只有很少示例的輸入上工作。哪怕只有一張圖片可用時,結果也不會太糟,但當有更多圖片可用時,結果會更加真實。

實驗和結果

研究人員使用2個數據集分別進行定量和定性評估:VoxCeleb1數據集用於與基準模型進行比較,VoxCeleb2用於展示他們所提出方法的效果。

研究人員在三種不同的設置中將他們的模型與基準模型進行了比較,使用fine-tuning集中的1幀、8幀和32幀。

結果如表1上半部分所示,基線模型在兩個相似性度量上始終優於我們的方法。

不過,這些指標不能完全代表人類的感知,因為這兩種方法都會產生恐怖谷偽影,從圖3的定性比較和用戶研究結果可以看出。

另一方面,餘弦相似度與視覺質量有更好的相關性,但仍然傾向於模糊、不太真實的圖像,這也可以通過表1-Top與圖3中的比較結果看出。

圖3:使用1張、8張和32張訓練圖像時的三個示例。系統採用一個源圖像(第1列),並嘗試將該圖像映射到ground truth幀中的相同位置(第2列)。研究人員將他們的結果與X2Face、PixtopixHD模型進行了比較。

大規模的結果。

隨後,我們擴展可用的數據,並在更大的VoxCeleb2數據集中訓練我們的方法。

下面是2個變體模型的結果:

同樣,訓練幀的數量是T(左邊的數字),第1列是示例訓練幀。第2列是ground truth圖像,後3列分別是我們的FF feed-forward 模型及微調前後的結果。雖然 feed-forward變體的學習更快速,但fine-tuning 最終提供了更好的真實感和保真度。

最後,我們展示了的照片和繪畫的結果。

論文地址:

https://arxiv.org/pdf/1905.08233v1.pdf

獲得更多的PTT最新消息
按讚加入粉絲團