每日最新頭條.有趣資訊

GAN零基礎入門:從偽造視頻到生成假臉

新智元報導

來源:forbes

編輯:大明

【新智元導讀】這是一篇關於GAN的零基礎入門介紹。作者用“製假販子”和“偵探”的比方講起,形象介紹了關於GAN的概念、組成和運作機制,以及基於GAN常見熱門應用方向等入門概念性知識。

目前,人工智能(AI)領域正在快速發展,每隔一段時間就取得新的突破。最近突出的一個詞是Generative Adversarial Network(GAN) - 但這是什麽意思?

名詞解釋:究竟什麽是生成對抗網絡(GAN)?

GAN背後的理念最初是在2014年提出的,在最基本的層面上將,它描述了一個系統,這個系統中將兩個AI系統(神經網絡)相互對立,以提高模型輸出結果的質量。

為了理解GAN是如何工作的,可以想象一個盲人偽造者試圖仿造一幅大師的畫作。首先,他並不知道這幅畫應該是什麽樣子的,但他碰巧有一位朋友對所有大師的傑作都有照片般的記憶。

這位朋友相當於一名偵探,必須確定他的朋友所展示的畫作是與真正偉大大師創作的畫作一致,還是明顯的贗品。

這是GAN運行的基本機制——只不過這位偽造者他的朋友都是AI,行事速度超快,每秒可以製造和檢測數千件贗品。然後兩人都從結果中進行“學習”,以改善在未來的表現。偵探在檢測贗品方面的能力越來越強,要求偽造者必須要把贗品做的更逼真才行。

近年來,由於GAN能夠基於現有的真實信息建立的規則製造出“新”信息,因此在人工智能開發領域引起了廣泛關注。編寫說明書可能是一個典型的例子。開發人員在成千上萬的指導手冊的內容作為訓練數據對GAN進行訓練,有朝一日可以創建一個可以查看任何工具,設備或軟體的系統,再為這個系統生成一份使用說明書。

如何設計了解你感覺的AI

接下來,讓我們更深入地研究一下GAN的工作機制。負責創建虛假數據的“偽造”網絡被稱為生成網絡,它的工作是閱讀並理解訓練數據的特徵屬性。然後嘗試通過生成遵循相同規則的“候選”數據集來複製這些訓練數據。

“偵探”網絡的作用是識別生成網絡的輸出數據是(人工生成的)假數據,還是真實的(訓練)數據,這個“偵探”稱為判別網絡。因為判別網絡與生成網絡進行對抗性競爭,所以整個系統被描述為“對抗性網絡”。

對於GAN的應用實例,最典型的就是“假臉生成工具”。為網站提供動力的網絡已經學會了製作人臉的超逼真圖像,雖然這些人臉圖像幾乎完美再現了真實人臉圖像的一切細節特徵和規則,但無一例外都是計算機程序生成的,現實世界中並不存在。

人們可能存在這樣的固有印象,即計算機是將人們的眼睛、耳朵、嘴巴和頭髮的數據庫中的碎片數據組合在一起,來構建面部圖像的,但事實並非如此。生成網絡的“輸入”數據只是一串數字,只有判別網絡才能看到訓練數據。生成網絡需要完全基於判別網絡的輸出來改善自己的輸出。

作為判別網絡給出的唯一反饋,是對生成網絡輸出是否與訓練數據匹配的“是或否”的判斷,這個生成—判斷—再生成的過程要循環多次,生成網絡和判別網絡的性能不斷提升後,才可能產生與訓練輸入足夠相似的人臉圖像輸出。

這個例子實際上借用了去年由Nvidia開發的proGAN模型,該模型在與運行過程中會逐漸增加生成網絡輸出的圖像分辨率,從4*4超低分辨率開始,最終生成逼真的人臉。)

用於訓練對抗性網絡的數據不必為標記數據,因為判別網絡可以完全基於訓練數據本身的特徵來對生成網絡的輸出做出判斷。所以,GAN既可以用於監督學習,也可以用於無監督學習和強化學習。

GAN的另一個用處是為其他AI應用程序高效地創建訓練數據集。大多數當前的AI技術,特別是深度學習技術,都依賴於海量的訓練數據。

GAN可以生成遵循“自然”數據集的所有規則的數據集,因此理論上可以用於深度學習模型的訓練。這一點對於醫學成像領域非常有用,收集真實數據成本高、耗時久,而且需要患者同意,以及大量的醫學專業知識才能對其進行數據標記。利用GAN可以有效克服這些障礙。

GAN可用於創建虛構的圖像,移動視頻,文本甚至是音樂。雖然近期對GAN存在著大量炒作,但它顯然是近年來從AI領域出現的最有趣的新概念之一,我們可以期待在不久的將來看到更多基於GAN的令人興奮的新應用。

參考鏈接:

https://www.forbes.com/sites/bernardmarr/2019/06/12/artificial-intelligence-explained-what-are-generative-adversarial-networks-gans/#4c727de37e00

新智元春季招聘開啟,一起弄潮 AI 之巔!

獲得更多的PTT最新消息
按讚加入粉絲團