史上最佳GAN被超越！生成人臉動物高清大圖真假難辨

公開日: 2019-06-05

栗子安妮發自凹非寺

量子位出品 | 公眾號 QbitAI

不得了，以生成逼真假照片出名、被稱作“史上最佳GAN”的BigGAN，被“本家”踢館了。

挑戰者同樣來自Google DeepMind，其新鮮出爐的VQ-VAE二代生成模型，生成出的圖像，號稱比BigGAN更加高清逼真，而且更具有多樣性！

不服氣？那先看看這些假照片作品。

濃眉大眼的棕發妹子，與歪果仁大叔：

神似何潔的亞裔面孔：

鬍子清晰可見的短發男：

此外，還有各種類型的動物：

在Top-1準確率測試上，VQ-VAE二代比BigGAN成績多出了16.09分。

DeepMind負責星際項目、也是這項研究的作者之一Oriol Vinyals表示，VQ-VAE二代簡直令人驚訝，如此簡單的想法竟然能夠產生如此好的生成模型！

甚至……連曾經也推出過逼真假臉的NVIDIA員工：NVIDIA研究院的高級研究科學家Arash Vahdat，也在研究推特下評價：

令人印象深刻啊！！！

短短幾小時，這項研究在推特上收獲了500多讚，以及上百次轉發。

來具體看看效果。

真實效果，好到驚豔

VQ-VAE生成的假照片，可以Hold住多種規格的精確度，在ImageNet上，可以訓練出256×256像素的動物：

如果投喂NVIDIA7萬張高清人臉數據集FFHQ（Flickr-Faces-HQ），輸出的圖像則為1024×1024像素的高清大圖，連人臉上的細微毛孔都清晰可見：

這些高清的妹子臉，顏值看起來也不低呢：

VQ-VAE生成出的假照片，比BigGAN的作品多樣多了。

與BigGAN相比，VQ-VAE不僅能生成不同物體和動物，還能生成不同視角以及不同姿勢的版本。

比如，同樣是生成鴕鳥，這是VQ-VAE的作品：

而VQ-VAE，光鴕鳥頭就能生成不同姿態，有正臉的、側對鏡頭的、45度角抬頭仰望天空的、以及不想露臉上鏡的：

甚至相對簡單沒有四肢的金魚，都能合成這麽多形態：

而BigGAN的角度相對來說非常單一：

除了肉眼可見的視覺對比，研究人員還做了一票實驗，用多個性能指標證明VQ-VAE二代在多維度上優於BigGAN。

從分類準確率得分（Classification Accuracy Score，CAS）上看，VQ-VAE在Top-1準確率上為58.74分，超出了BigGAN 42.65的成績16.09分，在Top-5準確率上，VQ-VAE領先了15.06分。

在精確率-召回率指標（Precision - Recall metrics）上，VQ-VAE的精度比BigGAN 稍低，但召回值高出了一大截。

在Inception Scores（IS）上，VQ-VAE沒有超越領先前人100多分BigGAN的成績，但FID值較低。

總體來說，VQ-VAE的表現，在多樣性和視覺感官上，已經超越了BigGAN，在各項性能指標上表現也還不錯。

彌補了GAN的缺點

VQ-VAE-2可以理解成一個通信系統。

其中有編碼器，把觀察到的信息映射到一組離散的潛變量 (Latent Variables) 上。

還有解碼器，把這些離散變量中的信息重構 (Reconstruct) 出來。

系統分成兩部分，都是由編碼器和解碼器構成的。

第一部分

它是一個分層的VQ-VAE，可以把不同尺度的信息分開處理。

比如，輸入一張256×256圖像，編碼器要把它壓縮進不同的潛在空間裡：

頂層 (Top Level) 要壓縮成64×64的潛在映射圖，為**全局信息 (比如形狀等) 生成潛碼；

底層 (Bottom Level) 要壓縮成32×32的潛在映射圖，為局部信息(比如紋理等) 生成潛碼。

然後，解碼器用這兩個潛在映射圖 (Latent Maps) 中，做出一張與原圖同樣大小的重構圖，其中包含了局部和全局信息。

團隊發現，如果不用頂層來調節 (Condition) 底層，頂層就需要編碼像素中每一個細節。

所以，他們就讓每個層級分別依賴於像素 (Separately Depend on Pixels) ：可以鼓勵AI在每個映射圖中，編碼補充信息 (Complementary Information) ，降低重構誤差。

而學到分層潛碼(Hierarchical Latent Codes) 之後，該進入下一部分了：

第二部分

在從潛碼中學到先驗(Prior) ，生成新圖。

這一部分，是二代與一代最大的區別所在：把一代用到的自回歸先驗 (Autoregressive Priors) 擴展、增強了。

用當前最優秀的PixelRNN模型來為先驗建模，這是一個帶自注意力機制的自回歸模型，能夠把先驗分布 (Prior Distribution) ，和上一部分學到的邊界後驗 (Marginal Posterior) 匹配起來。

這樣，可以生成比從前相乾性更高，保真度也更高的圖像。

和第一部分相似：這裡也有編碼器和解碼器，可以進一步壓縮圖像。

做好之後，從先驗裡取樣，可以生成新的圖像：和原圖清晰度一致，並且保持了相關性 (Coherence) 。

兩個部分合在一起，可以把256×256的圖像，壓縮200倍來學習；把1024×1024的高清大圖，壓縮50倍來學習。

團隊說這樣一來，把圖像生成速度提升了一個數量級。

在需要快速編碼、快速解碼的應用上，這樣的方法便有了得天獨厚的優勢。

同時，還避免了GAN的兩個著名缺點：

一是mode collapse，即生成某些圖像之後，GAN的生成器和判別器就達成和解，不再繼續學習了；二是多樣性不足的問題。

作者簡介

這項研究的作者共有三位，均來自DeepMind，Ali Razavi和A?ron van den Oord為共同一作，Oriol Vinyals為二作。

Ali Razavi博士畢業於滑鐵盧大學，此前在IBM、Algorithmics和Google就職過，2017年加入DeepMind，任職研究工程師。

研究員A?ron van den Oord小哥主要研究生成模型，此前還參與Google Play的音樂推薦項目。

2017年，A?ron參與了哈薩比斯項目組關於Parallel WaveNet的研究，為這篇論文的第一作者。

Oriol Vinyals小哥此前參與了多個明星項目，比如星際項目、比如AlphaStar，還與圖靈獎得主Geoffrey Hinton和谷歌大腦負責人Jeff Dean一起合作過，合著論文Distilling the knowledge in a neural network。

對了，最先稱讚BigGAN是“史上最佳GAN”的人，也是他~

傳送門

論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址：

https://arxiv.org/abs/1906.00446

—完—

一周精選推薦

喜歡就點「好看」吧 !

獲得更多的PTT最新消息

按讚加入粉絲團