Deepfakes超進化：造臉不夠，還想“造人”！

有了全身DeepFake，惡意製造者就可以利用DeepFake技術讓靜止圖像直接對著攝影機說話，目標就是要讓他們做一些超出底線的事情。

編譯 | 讓妲己看看你的心

公眾號 | AI星球

我們這個年代真是“秀”了，如今連“造假”都是AI。還記得那個讓張國榮復活、令明星變臉色情女主、使政界大佬歡言亂語的“換臉DeepFakes”吧。

如今它正在預謀著新一輪的“造假改革”：早已不甘心於隻偽造假臉了，它的目標是——造人！

先來回顧下那個“單純的換臉Deepfakes”最初的模樣，從明星大政客，全被玩壞了。

究竟是黃蓉附體楊冪or楊冪穿越《射雕英雄傳》？

川普一秒擁有“唐僧版的喋喋不休”

就連美國前第一夫人——希拉裡也很煩躁。

通常在DeepFakes（或被研究人員稱之為“合成媒體”）領域內，AI換臉正深度侵蝕著政治現實並造成了嚴重的破壞，甚至在模仿一個人的寫作風格和聲音的深度學習算法上，Deepfakes也是做到了史無前例。

不過這對Deepfakes來說還不夠，目前合成媒體技術的另一個分支使“換臉Deepfakes”再度升級：針對全身的造假DeepFake正在悄悄崛起。

在剖析這種“造假全身的DeepFakes”之前，我們先通過“造臉”與“造全身”做了假設對比，首先這是DeepFakes最初的模樣：

Farid說：“我可以做一個傑夫·貝佐斯（Jeff Bezos）的DeepFake假視頻，操縱他說亞馬遜的股價正在下跌。想想看，做空亞馬遜股票究竟能賺多少錢。實際，在你開始控制它的時候，傷害就已經開始了。

還有另一個情節：大選前一天晚上，各個民主黨的候選人都無比緊張，但利用Deepfakes製作一個參選人大肆宣講敏感性、非法性語言的視頻，是不是可以瞬間左右成千上萬選民的投票呢。“

其次來看下Deepfakes進軍“全身”的危害性，Farid表示：“一旦能做全身動作，就不僅僅是腦袋說話了，那個假的你可以模擬人們做愛甚至殺人。Deepfakes能讓你一眼看到你這輩子的終點？又或許這種傷害被誇大其詞。但最終，也許就是一兩年後，人們就能做全身程度的假動作，可能的話技術會非常強大。”

2018年8月，加州大學伯克利分校的研究人員發布了一篇題為《每個人都會跳舞》的論文及相關視頻，展示了深度學習算法如何將專業舞者的動作轉移到業餘舞者身上。

同年，德國海德堡大學Bjorn Ommer博士領導的一個研究團隊發表了一篇關於訓練機器人真實呈現人類動作的論文。

而後在今年4月，日本人工智能公司Data Grid開發了一種人工智能，可以自動生成不存在的人的全身模型，這可以在時尚和服裝行業擁有實際的應用。

這些例子表面看起來是技術的不斷的進步，但更深層次也說明了機器學習研究人員正在處理更困難的任務，即製造全身範圍的DeepFake。不僅如此，這些“全身DeepFakes”的商業應用領域顯然非常廣泛，比如DeepFakes舞蹈應用、體育及生物醫學研究等領域。

但在如今因造謠和假新聞而分化的政治氣候之下，惡意使用案例正日益受到關注。

目前，全身DeepFakes還不能完全愚弄人類的眼睛，但就像任何深度學習技術一樣，這一領域也會在不遠的將來取得進步。這只是一個時間問題，即全身DeepFake多久會變得與真人難以區分。

Deepfakes造人：一直在路上，從未停止

為了製造DeepFakes，計算機科學家們使用一種生成式對抗網絡（簡稱GANs）。這些網絡通常由兩個神經網絡組成，一個是合成器或生成網絡，另一個是檢測器或判別網絡。

這些神經網絡會在一個經過改進的反饋回路中工作，以創建真實的合成圖像和視頻。合成器從數據庫創建圖像，而後者從另一個數據庫工作，確定合成器的圖像是否準確和可信。

回想一下，當第一次DeepFakes被惡意利用時是發生在Reddit上，接著Scarlett Johansson等女演員的臉被替換到色情演員的臉上。

Fast.ai的Rachel Thomas表示，目前存在的95%的DeepFakes都是色情用例，目的是用“虛假的性行為”騷擾某些人。可能有些DeepFakes視頻並不一定會使用非常複雜的技術。但是，另種情況也正在開始改變著。

Farid指出，中國的DeepFake應用Zao說明了這項技術在不到兩年的時間裡發展得有多迅速。

Farid說：“我看到的那些來自Zao的視頻看起來非常非常好，而且有很多人工的改良在其中，使之看起來就像電影版本中臉部動作的那種。

技術正在不斷的發展，要讓DeepFake作為一個應用進行大規模的工作，並讓數百萬人下載到手機上，這是很困難的。Zao的成功標誌著DeepFake的成熟。”

“有了DeepFake的圖像和視頻，我們基本上實現了CGI技術的民主化。我們已經把它從好萊塢電影公司的手中奪過來，交給了YouTube的視頻製作者們。”

Björn Ommer，海德堡大學圖像處理合作實驗室（HCI）和科學計算跨學科中心（IWR）的計算機視覺教授，領導著一個研究和開發全身合成媒體的團隊。與該領域的大多數研究人員一樣，該小組的總體目標是理解圖像，並教機器如何理解圖像和視頻。最終，他希望團隊能夠更好地理解人類是如何理解圖像的。

Ommer說：“我們已經看到了合成的化身，不僅是在遊戲行業，而且在許多其他領域創造了收入。特別是對我的團隊來說，我們考慮的是完全不同的領域，比如生物醫學研究。我們想要更詳細地了解人類甚至是動物，我們希望隨著時間的推移，擴大到一些與殘疾相關的行為等等。”

在合成人臉和全身的過程中存在著關鍵的差異。Ommer說，人們已經對人臉合成進行了更多深入的研究。

這有幾個原因：首先，任何數位相機或智能手機都有內置的人臉檢測功能，這種技術可以用於檢測微笑或識別正在看節目的觀眾。這樣的應用可以產生收益，從而帶來更多的研究。

但是，正如Ommer所說，它們也導致了“大量的數據集組裝、數據管理和人臉圖像獲取，這些都是建立深度學習研究的基礎。”

第二，對Ommer來說更有趣的是，雖然每個人的臉看起來都不一樣，但是當把臉和整個人的身體相比較時，並沒有太大的可變性。

“這就是為什麽對面部的研究已經到了一個階段，我想說，相對於面部合成技術來說，人體存在著更多的可變性，處理起來更加複雜，如果你朝著這個方向前進，還需要學習更多。”

Ommer不確定什麽時候完全合成的身體會達到他和研究人員想要的質量。然而，從惡意DeepFake的成熟用例來看，Ommer指出，即使沒有深度學習計算機視覺智能、人工智能或其他技術所創造的模仿，人類也已經很容易被欺騙。慢鏡頭拍攝的Nancy Pelosi視頻讓這位眾議院議長顯得醉醺醺的。

在他看來，這段視頻表明，這種帶有非常簡單轉折的DeepFakes的出現，可能會讓某些社會階層信以為真。

Ommer說：“但是，如果你想讓更多的人相信DeepFake的圖片或視頻，還需要幾年的時間。”Ommer認為未來，全身DeepFake將變得更便宜和更普遍。“研究社區本身已經朝著一個方向發展，這一點得到了很多的讚賞。

它們對我們所看到的算法容易獲得的穩定進展負有責任，比如Github等。所以，你可以從一些論文中下載最新的代碼，然後，在不了解隱藏內容的情況下，直接應用它。”

Deepfakes像野火一樣在蔓延

並不是每個人都能創造出一部“轟動一時的DeepFake”。但是，Ommer說，隨著時間的推移，金錢將不再是算法資源方面的問題，軟體的適用性也將變得容易得多。

Farid說，有了全身DeepFake，惡意製造者就可以利用DeepFake技術讓靜止圖像直接對著攝影機說話，目標就是要讓他們做一些超出底線的事情。

2016年美國大選期間假新聞的爆炸，以及2017年DeepFake的興起，激發了調查記者Van de Weghe對合成媒體的研究。2018年夏天，他開始在史丹佛大學設立獎學金，研究打擊惡意使用DeepFake的方法。

Van de Weghe說：“受威脅最大的不是大人物、大政客和大名人，而是像你我這樣的普通人、女記者，還有一些邊緣化的群體，他們可能或已經成為DeepFake的受害者。”

兩周前，荷蘭新聞主播Dionne Stax發現自己的臉被DeepFake到了一名色情女明星的臉上，這段視頻被上傳到PornHub網站並在互聯網上傳播。

儘管PornHub很快刪除了這段視頻，但Van de Weghe說，她的聲譽已經受到了損害。

全身DeepFake可能會為記者行業帶來怎樣的影響呢？Van de Weghe提到了2018年美國有線電視新聞網白宮首席記者Jim Acosta的例子。在陰謀論網站Infowars編輯Paul Joseph Watson上傳的一段視頻中，Acosta似乎咄咄逼人地推搡著一名試圖拿他麥克風的白宮工作人員。由C-SPAN播出的原始片段與Watson上傳的有明顯不同。Infowars的編輯聲稱他並沒有篡改視頻，並將出現的任何差異歸因於“視頻壓縮”。

但是，正如《獨立報》在編輯時間軸上對視頻進行的並排分析所顯示的，Watson的視頻缺少了原視頻的幾幀。全身DeepFake就像編輯視頻幀一樣，可以改變事件的真實性。

Deeptrace Labs成立於2018年，是一家網絡安全公司，正在開發基於計算機視覺和深度學習的工具，以分析和理解視頻，尤其是那些可以被人工智能操縱或合成的視頻。

該公司創始人Giorgio Patrini曾在阿姆斯特丹大學德爾塔實驗室從事深度學習的博士後研究。他說，幾年前，他開始研究預防或防範未來合成媒體濫用的相關技術。

Patrini認為，由合成人體、人臉和音頻組成的惡意DeepFake，將很快被用來攻擊記者和政客。

他指的是一段深度偽造的色情視頻，視頻中印度記者Rana Ayyub的臉被換到了一名色情女演員的身體上，這是一場虛假信息運動的一部分，目的是抹黑她的調查報導。

此前，她公開要求對強姦和謀殺一名8歲克什米爾女孩的行為進行司法審判。今年3月，Deeptrace Labs對加蓬總統Ali Bongo的DeepFake進行了調查。

儘管這個非洲國家的許多人認為Bongo一動不動的臉、眼睛和身體暗示著一個深層的騙局，包括加蓬軍方在內的許多人認為Bongo的臉、眼睛和身體都是假的，加蓬軍方基於這一信念發動了一場失敗的政變。Patrini表示，他不相信總統的視頻是合成的。

Patrini說：“我們找不到任何理由相信這是一件DeepFake。我想，這後來被證實，總統還活著，但是他中風了。我想在這裡指出的重點是，一個視頻是否是假的並不重要，重要的是人們知道它會在公眾輿論中引發懷疑，在某些地方還可能引發暴力。”

最近，Van de Weghe了解到，一名政黨運營人員接觸了一位最受歡迎的DeepFake創作者，要求他利用DeepFake傷害某個人。在未來，這種定製的DeepFake可能會成為大生意。

Van de Weghe說：“用DeepFake可以賺錢，人們會點開看的。所以，一個政府不必造假，他們只要聯繫一個專門製造DeepFake的人就可以。”

《華爾街日報》最近報導稱，一家英國能源公司的首席執行官被騙，將24.3萬美元轉入一家匈牙利供應商的账戶。這位高管說，他相信自己是在和老闆談話，他的老闆似乎已經批準了這筆交易。現在，這位首席執行官認為他是一場“網絡釣魚”音頻深度詐騙的受害者。

Farid認為，DeepFake的其他欺詐性金融計劃（可能包括全身DeepFake）只是時間問題罷了。

Farid認為，社交媒體和DeepFake視頻的結合，無論是面部還是全身，都很容易造成大破壞。社交媒體公司基本上無法或不願意調整其平台和內容，因此DeepFake可以像野火一樣蔓延。

他表示：“當你把創建DeepFake內容的能力與在全球發布和消費內容的能力結合起來時，就會出現問題。我們生活在一個高度分化的社會，原因有很多，人們會把意見相左的人往壞處想。”

但是對於Fast.AI的Thomas說，在新的網絡衝突中，DeepFake幾乎沒有必要對政治進程產生負面影響，因為政府和行業已經在與書面形式的虛假信息作鬥爭。她說，這些風險不僅與技術有關，還與人為因素有關。社會兩極分化，美國的大片地區不再有他們可以信任的真理來源。

這種不信任可能會讓有政治動機的DeepFake創造者有機可乘。正如隱私學者Danielle Citron所指出的，當DeepFake被揭穿時，它可以向那些相信謊言的人暗示，謊言是有一定道理的。

Citron稱之為“騙子的紅利”，Farid認為，全身DeepFake技術的進步將使這類邪惡問題變得更糟。受到《每個人都會跳舞》等大學研究和Zao等企業的推動，這項技術正在快速發展，貨幣化也只是時間問題。

行業反應

目前，科技行業還沒有達成根除DeepFake的共識。許多不同的技術正在研究和測試中。

例如，Van de Weghe的研究團隊創造了各種內部挑戰，探索了不同的方法。一個研究小組研究了膠片的數字水印以識別DeepFake。另一個團隊使用區塊鏈技術來建立信任，這是它的優勢之一。

然而，另一個團隊通過使用與最初創造DeepFake相同的深度學習技術來識別DeepFake。

Van de Weghe說：“史丹佛大學的一些輟學者創造了Sherlock AI，一種自動的DeepFake檢測工具。他們取樣了一些卷積模型，然後在視頻中尋找異常。這一過程也被其他DeepFake檢測器所使用，比如Deeptrace Labs。他們使用一種名為FaceForensics++的數據集，然後對其進行測試。準確率高達97%，對人臉的識別效果也很好。”

Deeptrace實驗室基於API的監控系統可以查看DeepFake視頻的創建、上傳和共享。自2018年成立以來，該公司已經在互聯網上發現了超過1.4萬個虛假視頻。

Deeptrace實驗室的系統收集到的信息可以告訴公司及其客戶，DeepFake的創造者在做什麽，假視頻、假突破來自哪裡，他們在使用什麽算法，以及這些工具的可訪問性如何。

Patrini說，他的團隊發現，95%的DeepFake都是假色情類的面部互換產品，其中大多數是名人。到目前為止，Deeptrace實驗室還沒有看到任何全身合成技術被應用在普通人身上。

Patrini說：“你不能用單一的算法或想法來總結這些問題的解決方案。這個問題是關於建立幾個工具，可以告訴你關於合成媒體的不同情況。”

Van de Weghe認為反DeepFake技術的下一個重大發明將會是軟生物特徵識別技術。每個人都有自己獨特的面部表情——揚起的眉毛、嘴唇的動作、手部的動作——這些都可以作為某種個人特徵。

加州大學伯克利分校的研究人員Shruti Agarwal使用了軟生物計量模型來確定這種面部抽搐是否可以被人為地用於拍攝視頻。

Agarwal說：“基本的想法是，我們可以建立各種世界領導人的軟生物識別模型，比如2020年總統候選人，然後我們可以對網絡上流傳的視頻進行分析，確定它們是真是假。”

儘管Agarwal的模型並不能被完全證明，因為不同環境下的人可能會使用不同的面部抽搐，但Van de Weghe還是認為未來公司可以提供用於身份驗證的軟生物特徵簽名。這種特徵可能是眾所周知的眼睛掃描或全身掃描。

Van de Weghe說：“我認為這是前進的方向：與學術界和大型科技公司合作，創建更大的數據集。作為新聞編輯，我們應該努力培養人們對DeepFake的媒體素養。”

最近，Facebook和微軟聯手各個大學，推出了“DeepFake檢測挑戰”。另一項值得注意的努力是美國國防高級研究計劃局的行動，即利用語義取證技術來對付DeepFake。語義取證技術可以尋找算法錯誤，例如，在DeepFake視頻中，出現了一個人戴的耳環不匹配的情況。

2018年9月，人工智能基金會籌集了1000萬美元，創建了一個工具，這款工具可以通過機器學習和人工審核者來識別DeepFake和其他惡意內容。

但是，Fast.AI的Thomas仍然懷疑技術是否能完全解決DeepFake的問題，不管是何種形式的技術。她認為建立更好的系統來識別DeepFake是有價值的，但她重申，其他類型的錯誤信息已經非常猖獗。

Thomas說，利益相關者應該探索社會和心理因素，這些因素也會導致嚴重的DeepFake和其他錯誤信息，比如，Nancy Pelosi那部慢動作的視頻是如何利用不喜歡她的選民的偏見的。

監管Deepfakes仍舊很難

Thomas、Van de Weghe和Farid都同意，政府將不得不介入並監管DeepFake技術，因為放大此類煽動性內容的社交媒體平台要麽無法，要麽不願監管自己的內容。

今年6月，眾議院情報委員會主席、民主黨眾議員Adam Schiff就DeepFake造成的虛假信息及其威脅舉行了首次聽證會。Schiff在開場白中指出，科技公司對Schiff的假視頻做出了不同的反應。

YouTube立即刪除了這段慢速播放的視頻，而Facebook將其標注為假，並限制了它在整個平台上的傳播速度。

這些不同的反應導致Schiff要求社交媒體公司制定政策，糾正DeepFake的上傳和傳播。

Fast.ai的Thomas說：“在短期內，推廣虛假信息和其他有害的、煽動性的內容對社交平台來說是有利可圖的，因此我們的激勵措施完全不一致。我不認為這些平台應該對它們所承載的內容承擔責任，但我確實認為它們應該對積極推廣的內容承擔責任。例如，YouTube將Alex Jones的視頻推薦給那些甚至沒有在搜索他的人。”

Thomas補充道：“總的來說，我認為，考慮一下我們如何通過立法處理那些將巨額社會成本外部化、同時私下要求利潤的其它行業（如工業汙染、大型煙草和快餐/垃圾食品），是有幫助的。”

Deeptrace Labs的Patrini說，對合成媒體的監管可能會變得複雜。但是，他認為，目前的一些法律，比如那些涉及誹謗和版權的法律，可以用來監管惡意的DeepFake。一項全面阻止DeepFake的法律將是錯誤的。相反，他主張政府支持有利於社會的合成媒體應用，同時資助研究開發檢測DeepFake的工具，並鼓勵初創企業和其他公司也這麽做。

Patrini說：“政府還可以教育公民，這項技術已經存在，我們需要重新訓練我們的耳朵和眼睛，不要相信我們在互聯網上看到和聽到的一切。我們需要給人們和社會打預防針，而不是在可能兩年後因為濫用這項技術而發生非常災難性或有爭議的事情時修複民眾情緒。”

Ommer說，計算機視覺研究人員很清楚DeepFake的惡意應用。他認為政府應該為如何使用DeepFake建立問責製。

Ommer說：“我們都看到了圖像理解的應用，以及它可能帶來的好處。其中一個非常重要的部分是責任，誰將承擔這一責任？採訪過我的政府機構顯然看到了他們在這方面的責任。公司說，或許為了股東的利益，他們不得不說，他們看到了自己的責任；但是，到目前為止，我們都知道他們是如何處理這一責任的。”

Ommer說：“這是一件棘手的事情，我們不能只是靜靜地祈禱這一切都會過去。”