每日最新頭條.有趣資訊

史上最佳GAN被超越!生成人臉動物高清大圖真假難辨

栗子 安妮 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

不得了,以生成逼真假照片出名、被稱作“史上最佳GAN”的BigGAN,被“本家”踢館了。

挑戰者同樣來自Google DeepMind,其新鮮出爐的VQ-VAE二代生成模型,生成出的圖像,號稱比BigGAN更加高清逼真,而且更具有多樣性!

不服氣?那先看看這些假照片作品。

濃眉大眼的棕發妹子,與歪果仁大叔:

神似何潔的亞裔面孔:

鬍子清晰可見的短發男:

此外,還有各種類型的動物:

在Top-1準確率測試上,VQ-VAE二代比BigGAN成績多出了16.09分。

DeepMind負責星際項目、也是這項研究的作者之一Oriol Vinyals表示,VQ-VAE二代簡直令人驚訝,如此簡單的想法竟然能夠產生如此好的生成模型!

甚至……連曾經也推出過逼真假臉的NVIDIA員工:NVIDIA研究院的高級研究科學家Arash Vahdat,也在研究推特下評價:

令人印象深刻啊!!!

短短幾小時,這項研究在推特上收獲了500多讚,以及上百次轉發。

來具體看看效果。

真實效果,好到驚豔

VQ-VAE生成的假照片,可以Hold住多種規格的精確度,在ImageNet上,可以訓練出256×256像素的動物:

如果投喂NVIDIA7萬張高清人臉數據集FFHQ(Flickr-Faces-HQ),輸出的圖像則為1024×1024像素的高清大圖,連人臉上的細微毛孔都清晰可見:

這些高清的妹子臉,顏值看起來也不低呢:

VQ-VAE生成出的假照片,比BigGAN的作品多樣多了。

與BigGAN相比,VQ-VAE不僅能生成不同物體和動物,還能生成不同視角以及不同姿勢的版本。

比如,同樣是生成鴕鳥,這是VQ-VAE的作品:

而VQ-VAE,光鴕鳥頭就能生成不同姿態,有正臉的、側對鏡頭的、45度角抬頭仰望天空的、以及不想露臉上鏡的:

甚至相對簡單沒有四肢的金魚,都能合成這麽多形態:

而BigGAN的角度相對來說非常單一:

除了肉眼可見的視覺對比,研究人員還做了一票實驗,用多個性能指標證明VQ-VAE二代在多維度上優於BigGAN。

從分類準確率得分(Classification Accuracy Score,CAS)上看,VQ-VAE在Top-1準確率上為58.74分,超出了BigGAN 42.65的成績16.09分,在Top-5準確率上,VQ-VAE領先了15.06分。

在精確率-召回率指標(Precision - Recall metrics)上,VQ-VAE的精度比BigGAN 稍低,但召回值高出了一大截。

在Inception Scores(IS)上,VQ-VAE沒有超越領先前人100多分BigGAN的成績,但FID值較低。

總體來說,VQ-VAE的表現,在多樣性和視覺感官上,已經超越了BigGAN,在各項性能指標上表現也還不錯。

彌補了GAN的缺點

VQ-VAE-2可以理解成一個通信系統。

其中有編碼器,把觀察到的信息映射到一組離散的潛變量 (Latent Variables) 上。

還有解碼器,把這些離散變量中的信息重構 (Reconstruct) 出來。

系統分成兩部分,都是由編碼器和解碼器構成的。

第一部分

它是一個分層的VQ-VAE,可以把不同尺度的信息分開處理。

比如,輸入一張256×256圖像,編碼器要把它壓縮進不同的潛在空間裡:

頂層 (Top Level) 要壓縮成64×64的潛在映射圖,為**全局信息 (比如形狀等) 生成潛碼;

底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,為局部信息(比如紋理等) 生成潛碼。

然後,解碼器用這兩個潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構圖,其中包含了局部和全局信息。

團隊發現,如果不用頂層來調節 (Condition) 底層,頂層就需要編碼像素中每一個細節。

所以,他們就讓每個層級分別依賴於像素 (Separately Depend on Pixels) :可以鼓勵AI在每個映射圖中,編碼補充信息 (Complementary Information) ,降低重構誤差

而學到分層潛碼(Hierarchical Latent Codes) 之後,該進入下一部分了:

第二部分

在從潛碼中學到先驗(Prior) ,生成新圖。

這一部分,是二代與一代最大的區別所在:把一代用到的自回歸先驗 (Autoregressive Priors) 擴展、增強了。

用當前最優秀的PixelRNN模型來為先驗建模,這是一個帶自注意力機制的自回歸模型,能夠把先驗分布 (Prior Distribution) ,和上一部分學到的邊界後驗 (Marginal Posterior) 匹配起來。

這樣,可以生成比從前相乾性更高,保真度也更高的圖像。

和第一部分相似:這裡也有編碼器和解碼器,可以進一步壓縮圖像。

做好之後,從先驗裡取樣,可以生成新的圖像:和原圖清晰度一致,並且保持了相關性 (Coherence) 。

兩個部分合在一起,可以把256×256的圖像,壓縮200倍來學習;把1024×1024的高清大圖,壓縮50倍來學習。

團隊說這樣一來,把圖像生成速度提升了一個數量級

在需要快速編碼、快速解碼的應用上,這樣的方法便有了得天獨厚的優勢。

同時,還避免了GAN的兩個著名缺點:

一是mode collapse,即生成某些圖像之後,GAN的生成器和判別器就達成和解,不再繼續學習了;二是多樣性不足的問題。

作者簡介

這項研究的作者共有三位,均來自DeepMind,Ali Razavi和A?ron van den Oord為共同一作,Oriol Vinyals為二作。

Ali Razavi博士畢業於滑鐵盧大學,此前在IBM、Algorithmics和Google就職過,2017年加入DeepMind,任職研究工程師。

研究員A?ron van den Oord小哥主要研究生成模型,此前還參與Google Play的音樂推薦項目。

2017年,A?ron參與了哈薩比斯項目組關於Parallel WaveNet的研究,為這篇論文的第一作者。

Oriol Vinyals小哥此前參與了多個明星項目,比如星際項目、比如AlphaStar,還與圖靈獎得主Geoffrey Hinton和谷歌大腦負責人Jeff Dean一起合作過,合著論文Distilling the knowledge in a neural network。

對了,最先稱讚BigGAN是“史上最佳GAN”的人,也是他~

傳送門

論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址:

https://arxiv.org/abs/1906.00446

一周精選推薦

喜歡就點「好看」吧 !

獲得更多的PTT最新消息
按讚加入粉絲團