DeepFakes天敵來了！伯克利研發“火眼金睛”防偽克星

新智元報導

來源：Gizmodo

編輯：大明、金磊

【新智元導讀】DeepFakes技術的安全性已然成為輿論的焦點。而近日，來自加州大學伯克利分校和南加州大學的研究人員打造了一款AI識別系統，能從Deepfake製假者未注意到的面部細節入手，準確"揪出"假視頻。

DeepFake假視頻的泛濫早已經不只是惡搞和娛樂的問題了！這些假視頻衍生出的假新聞可能會成為2020美國大選的一場噩夢。

目前，越來越多的研究人員在努力尋找準確識別Deepfake的假視頻的方法。這場鬥法已經成為一場維護新聞真實性、甚至是關乎國家安全的一場軍備競賽。

近日，來自加州大學伯克利分校和南加州大學的研究人員在這場競賽中暫時走在了前面。他們打造的AI識別系統，能從Deepfake製假者未注意到的面部細節入手，準確"揪出"假視頻。

現在使用神經網絡和深度學習偽造的視頻，其質量和生產速度可能讓即將到來的總統大選成為一場噩夢。但是，利用當前深度技術中被忽視的一些東西，研究人員發現了一種自動識別這些虛假視頻的新方法。

DeepFake不再可怕，精準判斷真偽

利用Deepfake生成視頻現在還遠遠算不上完美。這些視頻是利用互聯網上抓取的海量圖像庫創建的，早期生成的視頻分辨率一般很低（因為更容易隱藏缺陷），而且是過度壓縮的。但Deepfake技術的發展速度非常驚人，而且這個過程中，不斷改進生成視頻中的缺陷，比如假視頻中人物從不眨眼的缺陷，很快得到了改善，使這些生成的假視頻變得越來越逼真可信。

早期的Deepfake生成的假視頻缺陷明顯，比如人物說話時從不眨眼，現在這個缺陷已被修複

假視頻的生成與識別已經成為一場軍備競賽，任何一方都不會很快徹底打垮對手。不過最近，來自加州大學伯克利分校和南加州大學的研究人員在這場戰鬥中開發了出了新的武器，可以更加準確地識別偽造的視頻。研究人員利用前總統奧巴馬的現有視頻，使用類似的過程來創建假視頻，訓練AI來尋找每個人的“軟性生物識別”標簽。

這聽起來很複雜，其實這東西我們並不陌生。每當我們開口說話時，都會以微妙但獨特的方式來移動身體，我們的頭、手、眼睛甚至嘴唇都會產生這樣的運動。這一切都是在潛意識裡完成的，你沒有意識到你的身體正在做這件事，大腦也沒有立刻意識到身體其他部位的運動發生在何時，但從結果上看，這是一個目前Deepfake在創造假視頻時的時候沒有考慮到的因素。

在實驗中，這款新的AI準確發現偽造視頻的幾率達到了92%，實驗對象包括使用多種技術創建的假視頻，以及由於視頻文件被過度壓縮導致圖像質量下降的視頻。

下一步，研究人員還打算通過識別人聲的獨特節奏和特徵，來進一步提高AI識別假視頻的成功率。但目前的實際情況是，Deepfake的發展和改進速度非常快，可能會在2020年之前迎頭趕上，成功欺騙目前的AI識別工具。這可能是一場曠日持久的戰鬥，最終誰會獲勝現在還很難講。

深度學習的最新進展使得創建複雜且引人注目的假視頻變得更加容易。現在，普通人就可以利用相對適度的數據和計算力，炮製出一段名人的演講視頻，這些所謂的“Deepfake”視頻可能會對國家安全和社會構成重大威脅。為了應對這種日益嚴重的威脅，本文提出了一種技術，可以模擬人物說話時潛在的面部表情和動作。雖然這些動作看上去不顯眼，但製造假視頻的方法沒有注意這一點，因此可用於驗證視頻的真假。

我們假設，當一個人說話時，會做出不同的（但可能不是唯一的）面部表情和動作。給定單個視頻作為輸入，首先跟蹤面部和頭部運動，然後檢測並提取特定動作單元的存在性和強度。由此可以構建一個能夠區分真假視頻的新的檢測模型。

圖1 上面所示是來自250幀剪輯片段中的五個等距幀，顯示了對OpenFace的跟蹤結果。下半部分為此視頻剪輯上測量的一個動作單元AU01（眉毛抬起）的程度。

我們使用開源面部行為分析工具包OpenFace2 來提取視頻中的面部和頭部運動。該數據庫為給定視頻中的每幀提供2-D和3-D面部地標位置、頭部姿勢、眼睛注視和面部動作單元。提取量度標準如圖1所示。

具體來說，首先要明確的是，不同的人在說話時會表現出相對不同的面部和頭部運動模式。而Deepfake假視頻往往會破壞這些模式，因為假視頻中的這些模式的表達由模仿算法控制，可能導致嘴巴與臉部的其他部分不自然的分離。

本文構建了高度個人化的“軟生物識別指標”，並利用這些指標來區分真實和虛假視頻。與以前的方法不同，這種方法能夠有效應對laundering，因為該方法依賴於不易破壞的相對粗略的量度。

表1. POI正在講話的下載視頻和段的總持續時間，以及從段中提取的段和10秒剪輯的總數。

圖2.從上到下依次是原始視頻，嘴唇同步Deepfake假視頻、喜劇模仿視頻、換臉Deepfake和木偶大師deepfake的10秒視頻剪輯的五個示例幀。

圖3. 希拉裡·克林頓（棕色），巴拉克·奧巴馬（淺灰色帶框），伯尼·桑德斯（綠色），唐納德·川普（橙色），伊麗莎白·沃倫（藍色）的190-D特徵的二維可視化），隨機任務（粉色），以及奧巴馬的Deepfake假視頻（深灰色帶框）

實驗結果：總體識別準確率超過95%

表2：奧巴馬視頻的三種不同假陽性率（FPR）曲線下面積（AUC）和真陽性率（TPR）的總體準確度。上半部分對應於使用完整190個特徵的10秒視頻片段和完整視頻片段的識別準確度。下半部分為於僅使用29個特徵的識別準確度。

表3：希拉裡·克林頓，伯尼·桑德斯，唐納德·川普和伊麗莎白沃倫的10秒視頻剪輯的總體識別準確度

表4：對喜劇模仿假視頻（黑色方塊），隨機人物假視頻（白色方塊），嘴唇同步Deepfake假視頻（黑色圓圈），換臉Deepfake假視頻（白色圓圈）和木偶大師Deepfake假視頻（黑色菱形）的識別準確度

圖5：（a）真實的樣本框架; （b）喜劇模仿假視頻樣本框架; （c）四個名人的換臉Deepfake假視頻的樣本框架

研究局限與未來方向

本文提出的方法與現有的基於像素的檢測方法相比，可以更好地抵禦圖像壓縮的影響。不過我們也發現，本方法的適用性容易受到人們說話的不同背景的影響（直面鏡頭正式講話，與不看鏡頭的現場採訪）。我們建議通過以下兩種方式來應對。

在各種多樣化環境中收集更大、更多樣化的視頻集，或者構建幾位名人基於特定環境下的講話模型。除了這種背景環境效應之外，我們發現當演講人始終遠離鏡頭時，動作單元的可靠性可能會受到嚴重影響。為了解決這些局限性，建議通過語言分析來增強模型性能，更好地捕獲所說內容與說法方式之間的相關性。

參考鏈接：

Gizmodo：

https://gizmodo.com/a-new-method-of-spotting-deepfake-videos-looks-for-the-1835743742

論文地址：

http://openaccess.thecvf.com/content_CVPRW_2019/papers/Media%20Forensics/Agarwal_Protecting_World_Leaders_Against_Deep_Fakes_CVPRW_2019_paper.pdf