每日最新頭條.有趣資訊

棱鏡|“螞蟻呀嘿”下架背後:暗網30美元就能換臉,造假鑒假實力懸殊

作者 | 王凡 編輯 | 楊布丁

出品 | 棱鏡·騰訊新聞小滿工作室

“螞蟻呀嘿,螞蟻呀呼,螞蟻呀哈哈…”

3月初,抖音短視頻平台上,成龍、蔡卓妍、任賢齊等明星等通過AI變臉特效模塊,集體唱歌。只需要上傳一張照片就可以生成動態唱歌的簡單操作,引發無數網友跟風傳播。甚至有人做出了巴菲特、馬斯克、雷軍等中外知名大佬一同“螞蟻呀嘿”的搞笑視頻,形成病毒式傳播。

“螞蟻呀嘿”所借助的AI變臉軟體Avatarify在中國區的App Store登上免費榜榜首時,也讓它依托的“深度偽造”(Deepfake)技術再度進入大眾視野。目前,該應用已經在中國下架,原因或涉及隱私安全。

“面對擠眉弄眼的大佬唱歌,我根本笑不出來,只是覺得深深的恐懼。”一位用戶對作者表示,這既來自於“AI深度合成”技術以前所未有的速度和規模,從實驗室滲入大眾數字生活中,也包括“肉眼難辨真假”的背後對個人信息安全和社會信任體系重新審視的惴惴不安。

當“所見非所得”之後,AI換臉會帶來新的創造力嗎,還是通往隱私洩露、信任體系崩塌的深淵呢?

我如何讓愛因斯坦預測新冠?

當“螞蟻呀嘿”在中國抖音上登上熱搜榜之際,大洋彼岸的Tiktok(海外版抖音)上,影星“湯姆·克魯斯”對著鏡頭變魔術和打高爾夫的短視頻掀起狂潮,吸粉39萬,點擊量1100萬次,在其他社交平台上的再傳播量也達到千萬級別。

但問題是,視頻中的湯姆·克魯斯並非本人,而是深偽技術下的一個“幻象”。無數人在假账戶下留言驚呼,“你居然告訴我,這是個假視頻!?”

“我只想娛樂大家,沒有惡意。”這則假視頻背後的技術操刀人克里斯·烏米(Chris Ume)在3月4日對作者表示。他強調,假阿湯哥視頻借助18000張不同角度的影星照片來訓練機器算法,專門模仿阿湯哥的演員Miles Fisher刻意的體態表達讓迷惑性更強,同時每則視頻在機器加工後還需要技術人員再花費24個小時進行後期調整。

“我使用的電腦硬體或是我的技術,不是普通人拿個手機就可以實現的。”烏米是一位專業的視覺特效師,任職於《南方公園》動畫創始人馬特·斯通和特雷·帕克的AI實驗室,本身也有自己的工作室。他試圖通過強調這則假視頻背後的專業度,來反駁外界對他正在傳播造假工具的指責。曾有用戶在留言裡痛斥烏米正在“打開潘多拉魔盒”。

在“假阿湯哥”視頻之前,烏米還曾經在社交平台上公布過多個借助深度合成技術完成的視頻項目,其中包括一則讓愛因斯坦開口預測新冠的假視頻。基本原理是通過機器學習既修複加強愛因斯坦的歷史影像,也訓練算法讓視頻中的嘴型適應新語言。類似的操作已經應用在實踐中,比如英國球星貝克漢就曾經接拍一則消滅瘧疾的公益廣告。製作方為了本地化需求,利用深度合成技術,讓隻用拍一條的貝克漢在視頻中用九種國家的語言,說出了同一句廣告語。全球知名傳媒公司WPP也借助深偽技術,讓企業培訓中的主講人針對不同國家的員工講述不同種的語言,視頻中的面部動作與語音內容都是由軟體合成的。

“文創產業正在廣泛研究深度合成技術可能帶來的機會,雖然現在精度還達不到電影播放的要求。”烏米對作者表示,在新冠疫情下各地“封城令”影響日常通行並暫停影視拍攝之際,深偽技術的應用,或能變為一種解決方案,彌補影視製作損失。

事實上,深度合成技術已經被應用在好萊塢電影產業。比如,奈飛的電影《愛爾蘭人》中就借助深偽技術將主演面部“減齡30歲”,以便讓演員同時出演年輕時代,從而大大降低電影的預算。

“技術本身並不違法,20年前,人們用Photoshop也可以做類似的換臉效果。”烏米如此應對外界對他使用深偽技術的指責,“如果應用得當,可以帶來創造力。我不是法學家,也許他們可以要求深偽技術處理過的視頻需要貼個標簽之類。我只是個創作者。我也想通過這些短視頻告訴大眾,所見,也許並非所得。”

鑒假工具更新趕不上造假速度

與烏米這樣走到台前自曝身份,並揭盅技術拆解的“造假者”不同,一批應用開源深偽軟體的人群隱身於螢幕後甚至暗網中。利用深偽技術“瞞天過海”的案例屢見不鮮,名人是率先被模仿的群體。

國際範圍內,政客演講視頻被深偽技術調慢速度,營造出身體不佳的假象;馬克·祖克柏受訪視頻被重新調整嘴型,說出“要刪除社交網絡”等他從未說過的話。

在中國,抖音、快手等短視頻平台上,騙子利用簡單的合成技術,自稱是靳東、馬雲等知名人士本人,騙取中老年人的感情和金錢。虛假的明星視頻甚至形成了規模化的造假產業鏈,完成了直播帶貨、轉手倒賣或者騙取錢財等多種利用造假變現的形式。

“假視頻或是假圖片都不是什麽新鮮事物,但現在所能達到的精度和造假工具的可及性,是讓我擔心的地方。”美國加州伯克利大學數字鑒假專家Hany Farid在接受外媒採訪時表示。

紐約州立大學布法羅分校計算機工程系教授呂思偉對作者解釋道,假音視頻愈發“以假亂真”源自三重發展:除了過去十年人工智能在計算機視覺技術上的更新之外,還有賴於CPU、GPU所帶來的硬體算力能力提高,和社交媒體普及後影像數據集的指數級增加。機器算法的仿真能力,源自巨量數據集的“餵養”。

造假並非無藥可解,呂思偉所在的實驗室正在通過機器學習的方法,尋找鑒別虛假音視頻的技術解決方案:“欺騙人眼相對容易。但就好像醫生可以通過X光看到人眼看不到的問題一樣,算法也可以提供數字鑒證的工具。”

但問題是,道高一尺,魔高一丈。鑒假工具更新趕不上造假速度。呂思偉的團隊曾經採用眨眼頻率的方式來鑒別假視頻,因為第一代虛假視頻中大量使用網絡靜態任務圖片訓練算法。這些圖片中的人物都睜著眼睛,因為沒人願意把閉眼的形象展示給公眾,而造成造假時的漏洞。

但隨著更多動態視頻進入數據集,造假視頻的仿真程度進一步升級,則需要引入陰影漸變邊界等物理特徵的區別信號,進行數字鑒別。

在海外,包括臉書、微軟在內的美國科技巨頭在公眾壓力下,投入資金研究鑒假工具,但結果卻無法讓人完全安心。比如,臉書在2019年舉辦深偽鑒別挑戰大賽結果顯示,最佳表現的模型在處理公開的數據集時,也僅能達到82.56%準確度,當處理未公開的黑盒數據時,準確度為65.18%。

作者提交烏米製作的假阿湯哥視頻至多個提供鑒假工具的公開網站,均無法識別視頻為假。

更令人擔心的是,造假和鑒假成為一場財力人力懸殊的較量。

呂思偉對作者表示,雖然鑒假技術存在,但苦於無法商業化,“因此沒有什麽人真正去做這個事情”。呂思偉所在的實驗室開發了一款鑒假工具,放在網上,從去年11月開始大約有五六百個用戶使用。但和Avatarify通過深偽製造娛樂效果,形成自來水式的病毒性社交傳播所不同的是,人們對鑒假服務的付費意願不強,也讓兩方實力懸殊。

更為吊詭的是,因為深偽算法所依賴的GAN(生成對抗網絡)技術本身就依賴兩套對應系統,相當於是一個造假者和一個鑒別師在雙方對抗,由造假者畫出換臉之後的圖像,由鑒別師把認為換得不準確的圖像捨棄,篩選出仿真度高的進行保留,供機器繼續訓練精進,因此,鑒假技術的精進,反過來也能促進造假技術的進步,形成左右手互搏的態勢。所以,臉書或是微軟都未公開自己的鑒假算法。

如何防止AI換臉走向墮落

問題是,深偽工具的開源化、普及化已經讓被造假的主體不僅僅是名人,而可能成為任何普通人。

英國作家海倫·莫特(Helen Mort)就是受害者之一。有人通過扒取她在2017-2019年的私人社交媒體账戶圖片,將她的臉嫁接在色情視頻上,廣為流傳。遭遇類似霸凌經歷的還有澳大利亞18歲女生諾埃爾·馬丁(Noelle Martin)。她們並不知道始作俑者是誰。

除了開源的深偽軟體可下載之外,暗網中藏有專門提供造假服務的群體。網絡安全公司Gemini Advisory的研究報告顯示,暗網中,只需要付費就有人提供服務,可以針對專門的數據集製造一個“以假亂真”的面孔,用於繞過數字ID等檢測系統。根據網絡安全公司Deeptrace的報告,30美元就可以買到一項“換臉服務”,如果要更換語音,價格是“10美元50個字”。該報告同時舉例稱,曾有騙子偽裝成一家英國能源公司的母公司老闆致電員工,讓後者將24.3萬美元打給一家匈牙利的供應商,隨後發現電話中的聲音為合成後的假聲音。

除了個人隱私洩露風險和可能成為新的欺詐工具之外,呂思偉還擔心,深偽技術若被惡意濫用,可能帶來的認知層面的不信任感。“虛假音視頻帶來的最大風險,是信任體系的崩壞。深偽讓人產生一種幻覺,讓一些人看上去說了他實際上沒有說過的話。這是對信息可靠性最直接的破壞。”

呂思偉認為,大部分非專業製作的虛假音視頻依舊粗糙,稍有分辨力的閱聽人,可以有所判斷,但由於傳播平台指數級的增加,信息批量湧向閱聽人,快速分散著閱聽人注意力,讓閱聽人在很短時間裡難辨真偽。閱聽人基於自身興趣,條件反射般地進行轉發,也造成對虛假影音視頻推波助瀾的作用。

雖然普通人現在還無法通過手機,就完成烏米這樣專業人士能夠完成的深度合成精細度,但不代表未來不可能。

“我只不過想提前讓大家看到未來而已。”烏米對作者表示,他願意和平台或鑒假組織交流,以便讓這項技術在監管下引導更多的創造力,而不是“作惡”。

版權聲明:騰訊新聞出品內容,未經授權,不得複製和轉載,否則將追究法律責任。

獲得更多的PTT最新消息
按讚加入粉絲團