夏乙栗子發自凹非寺

量子位出品 | 公眾號 QbitAI

一段吐槽影片今天在美國火了。

也就半天的工夫，這段影片在Twitter上有200多萬次播放，1300多條評論，被轉發了2萬6000多次，還收獲了5萬多個讚。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

什麽影片這麽萬人矚目？主角，是前總統奧巴馬；這麽受關注，當然是因為——內容非常勁爆，特別是這一句：

President Trump is total and complete dipshit.

川普總統完全就是個笨蛋。

不過，這些勁爆的話都不是奧巴馬自己說的，影片裡的聲音來自剛剛在今年的奧斯卡上以《Get Out》拿下最佳原創劇本獎的導演Jordan Peele。

他和BuzzFeed CEO Jonah Peretti一起，自導自演了這麽一出大戲，戲裡的奧巴馬，對口型能力強大到讓所有假唱精英敗下陣來。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

搬出奧巴馬，就是為了向全美國（甚至全球）人民傳達影片開頭的那句話：

“我們已經進入了這樣一個時代，我們的敵人可以做出看起來像任何人在任何時候說任何話的東西。”

未來的假新聞可能就是這個樣。

這個影片……上傳比較困難，有興趣的同學可以自行搭梯子去Twitter看：

https://twitter.com/BuzzFeed/status/986257991799222272

影片中，Peele還放出了奧巴馬和自己的對比環節。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

右邊就是Jordan Peele，這段影片的（部分）替身演員和聲優。影片製作的主力工具則是Adobe AE和FakeApp。

此次的臉部搬家工作，具體是這樣的。首先，找出一段奧巴馬真正的演講影片，將Peele的嘴粗暴地粘貼到奧巴馬臉上。然後，再把奧巴馬的下巴，換成一個可以隨著演員嘴部動作一同運動的下巴。

下一步，FakeApp登場，負責把拚貼好的影片做一些平滑和細化處理。聽起來像是收尾工作，但這一步任重道遠。

據BuzzFeed透露，一開始搬家的效果蠢蠢的。可能用整容失敗都不足以形容。但，訓練時間長了之後，Peele的嘴部動作和奧巴馬的臉融合得越來越自然。

最後發出來的影片，是56小時辛苦訓練、以及特效專家現場指導的結晶。

又見FakeApp

是的，又見FakeApp。

去年底，一位不願透露姓名的用戶deepfakes，利用業餘時間搞出了這個機器學習算法，主要的功效就是兩個字：換臉。

只要給這個AI一些照片，就能出色的給影片中的主角換臉。

後來他的網名，就成了這個技術的代名詞。作者本人透露，這個系統是基於像TensorFlow後端的Keras等多個開源庫完成的。

這個開源系統發布之後，立刻引發了轟動。國外網友在reddit上創建了專門的討論區，用來交流和發布研究成果。

簡單實用效果好，deepfakes快速流行開來。很多人開始用這個技術，把色情片主角的臉換成自己喜歡的明星。

再後來，deepfakes進化成FaceApp。

從此換臉的流程進一步簡化。FaceApp被定義為一個社區開發的桌面應用，可以運行deepfakes算法，無需安裝Python、TensorFlow等，並且如果想要運行，僅需要“CUDA支持的高性能GPU”。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

△ 換臉的訓練過程

炸裂的效果引發了巨大的爭議，後來reddit上這個版塊也不得不關閉了事。

雖然互聯網公司幾乎集體封禁了deepfake相關社群，不想讓網民們再到處傳播換上赫敏臉的小片片。但是，這個技術的超低門檻軟體FakeApp悄然迭代著，目前已經到了2.2版。

這裡，我們放一段之前的演示：將希特勒的臉“嫁接”到阿根廷總統Mauricio Macri身上，體會一下效果。

關於deepfakes的應用，量子位還在另一篇報導裡有過詳細的描述，傳送門在此：《不可描述，技術進步》。

無需配音

在FakeApp的幫助下，換臉這件事變得非常簡單。

那聲音怎麽辦？嚴絲合縫的聲優在哪裡？

還是讓AI來吧。

上周，有Reddit小夥伴發布了，川普演講的韓文版，是AI自動生成的。

樓下，就有韓國友人鑒定，嗯，流利得可以。

這還不算，會說韓文的群眾紛紛表示，美國人說韓文，基本就是這個口音。

本周，還是那個小夥伴，又放出了帶有you-know-who嗓音的韓式英文，AI調教成果上佳。

影片那一頭的神秘團隊Icepick，到底對他們的AI做了什麽，目前並沒有相關資訊公開。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

△ 耳朵會懷孕

不過，我們依然可以看看，AI獲得語音生成技能之前，到底需要經受怎樣的調教——

氣質如何調教

歡迎谷歌娘致辭來自量子位00:0000:41

不管是谷歌娘，Siri，或是Alexa，說的話聽上去都不太像真人。這是因為，我們說話時有一些平常不容易察覺的細節，比如字與字之間的連接、呼吸聲、氣音、嘴唇碰撞時發出的聲音等等。

所以，把多個語音片段直接拚接合成 (Concatenative Synthesis) 一段話 (即鬼畜本畜)，或者用參數合成 (Statistical Parametric Synthesis) ，都很難產生非常接近人聲的語音。

第一個用神經網絡來生成人類自然語音的，就是DeepMind的WaveNet。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

從前，人們很少為原始音頻的聲波直接建模，因為每秒有超過16,000個采樣點，讓模型過於複雜，難於訓練。

但當PixelRNN和PixelCNN發布之後，DeepMind便有了“借助二維影像的處理方式，來處理一維聲波”的想法。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

WaveNet是全卷積神經網絡，卷積層裡的擴張因子 (dilation factors) ，能讓感受野 (receptive field) 隨深度變化呈指數增長，並且覆蓋數千個時間步 (timestep)。

有了延時采樣機制，只要增加一層，就可以多關聯一倍的時間範圍，訓練效果更佳。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

△ 你聽得出，我不是人嗎

通過層層卷積，WaveNet便可以把PS痕跡明顯的機器語音，轉換成更加流暢自然的語音，與人類聲音之間的差異大幅降低。

嗓音如何調教

去年，Lyrebird也發布了語音合成技術，基於音色、音調、音節、停頓等多種特徵，來定義某個人的聲音，然後借用ta的聲音來說話。

據公司官方表示，通過大量的樣本學習，神經網絡只需要聽一分鐘的音頻，就可以模仿裡面的陌生人說話了。Lyrebird系統生成一段語音，比同一時期的WaveNet要快得多。

口音如何調教

說一句話很容易，但語音就是一門複雜的學科了。同樣一個“啊”字從不同的人嘴裡發出來，也會因為口型大小、發音位置 (這並不是官方特徵分類) 等習慣的不同，讓身為聽眾的人類或電腦感受到差異。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

△ 給你，銷魂的倫敦腔

百度的語音合成系統DeepVoice，可以輕鬆訓練AI合成百種英文口音。研發團隊發現，AI把不同口音的演講者，對應到嵌入太空的不同區域裡。比如來自大不列顛島和北美大陸的人，在嵌入太空裡佔據的區域也有明顯的不同。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

△ 簡單的原理：英男 + 均美 +均英 = 美男

如果是處理中文，什麽樣的聲線和口音，才比較適合騙大神帶你吃雞呢？

隨口一說

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

△ 你個火·箭男

也有人不喜歡用政治噱頭來包裝科學研究的做法，並表達了強烈的反胃之情。

不過我倒覺得，如果有人發糖，還是要盡量分享給周圍的人。下面是正確示範——川川當選之際，和希拉裡的深you情du對唱 (誤) ，無奈影片上傳有難度，就改成了傳送門。

https://www.bilibili.com/video/av7234390/

以後，AI說不定能幫我們，把天衣無縫的南腔北調，P給鬼畜區的任何一位主角。

那麽，我心心念念的雷布斯同款仙桃國語，感覺指日可待啊。

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

福利

致想看影片又沒梯子的同學：文中提到的影片，我們在度娘網盤傳了一份。

歡迎在量子位公眾號（QbitAI）對話界面回復“造假精英”四個字提取。

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

奧巴馬吐槽川普“笨蛋”的影片火了，這又得“歸功”於AI

又見FakeApp

無需配音

氣質如何調教

嗓音如何調教

口音如何調教

隨口一說﻿

福利

隨口一說