給T恤印上一個圖案，就能在監控下實現“隱身”？

近日，一個來自比利時魯汶大學（KU Leuven）的科研團隊發現，使用特殊設計的圖案遮擋部分身體，就可以讓基於 YOLOv2 模型的監控系統喪失對人物的識別能力，從而實現在攝影頭下順利”隱身”的效果。他們把這樣的圖案叫做”對抗圖案”(Adversarial Patch)。

監控探頭在如今的大小城市中隨處可見。據報導，北京市在 2015 年就已建成了由 3 萬餘個監控探頭組成的立體防控網絡，覆蓋了城市街道的所有重點部位。這些探頭在交通管理、治安聯防、環境保護等各個方面，都發揮著越來越重要的作用。

近年來，卷積神經網絡（CNN）模型在學術界早已風生水起。其中許多技術的應用，特別是用於監控探頭的對象識別，也已經進入了我們的日常生活。

圖 |基於卷積神經網絡 (CNN) 的街面對象識別（來源：Dayan Mendez/EbenezerTechnologies）

然而，CNN模型的缺點卻也十分明顯。

首先，我們目前無法徹底地解釋它實現圖像識別的機制。CNN 模型的結構通常十分複雜。在訓練中，模型不斷地識別不同類型的圖片，自主調整上百萬個參數的數值，最終就可以達到極高的識別準確率。

這就像是一個”黑箱子”，我們只知道放入一個圖片，就能得到它的類別名稱，但是我們看不到也弄不清箱子裡的過程。更重要的是，由於訓練數據中並不存在為了迷惑識別器而特意設計的圖片（比如給衣服印上特製圖案），識別器對不常見的變化就幾乎完全不能寬容。

IanGoodfellow 帶領的團隊曾經做過這樣的實驗，對圖片中個別的像素點數值做一些人眼無法察覺的細微修改之後，CNN模型就徹底喪失了識別的準確率。正所謂即使數據只是”失之毫厘”，CNN 識別器的功效也會”謬以千里”。

由魯汶大學副教授 Toon Goedemé帶領的團隊，便是利用了 CNN 模型的這些”弱點”。發明了一套嚴謹的方法，用來生成可以迷惑 CNN 的”對抗圖案”。用圖案擋住人體的某個部分，監控探頭就無法檢測到這個人的存在。

圖 |使用”對抗圖案”讓識別器無法識別（來源：Simen Thys/KU Leuven）

實驗中，被 Toon Goedemé 和他的團隊”迷惑”的攝影頭，使用著名的 YOLOv2 卷積神經網絡。YOLOv2 屬於實時對象識別模型，它的結構是由 9 個不同尺寸的卷積層連接而成。當一張圖片從輸入層進入 YOLOv2 後，在輸出層會得到一系列的向量。向量裡記錄的是以原始圖片上各個位置為中心，5 種不同尺寸的檢測框中存在探測目標的概率，他們把這些概率中的最大值計作 L_obj。

圖 |YOLOv2 工作流程示意圖。中間上圖表示不同尺寸和位置的檢測框，中間下圖表示按照概率劃分出可能存在目標的區域。（來源：Simen Thys/KU Leuven）

要想生成可以迷惑 YOLOv2 的”對抗圖案”，首先需要有一個可以準確識別人物的 YOLOv2 模型，並且隨機生成一張初始的”對抗圖案”。然後，使用 YOLOv2 模型將每張訓練圖片中的人體都框選出來。再用現有的”對抗圖案”覆蓋住已識別的一部分人體。最後把覆蓋後的訓練圖片送回到模型中再次識別，並計算相應的優化目標值 L。然後使用反向傳播法 (backpropagation) 和 Adam 算法，相應調整”對抗圖案”上的像素數值。不斷重複覆蓋識別和調整像素值的過程，持續降低目標值 L，直至得到最優的”對抗圖案”。

整個過程中，YOLOv2 模型的參數值沒有任何的改變，它僅僅被用來改進”對抗圖案”。

圖 |”對抗圖案”的生成工藝（來源：Simen Thys/KU Leuven）

為了生成效果最佳的”對抗圖案”，研究人員對比了優化目標 L 的不同計算方法。其中最小化識別率（Minimising ObjectnessScore, OBJ）方法取得了最滿意的效果。在 OBJ 方法下，L 被定義為 L_obj，L_nps 和 L_tv 的加權平均值。其中，L_obj 是檢測框中存在探測目標的最大概率，L_nps 表示”對抗圖案”的列印難度，L_tv 衡量的是它像素點間的變化程度（為了使圖片看起來柔和）。

圖 |優化目標 L 的不同計算方法比較，可見 OBJ 方法生成的”對抗圖案”使模型查全率（Recall）和查準率 (Precision) 都下降最快。（來源：Simen Thys/KU Leuven）

在得到最佳的”對抗圖案”之後，研究團隊把它列印了出來。然後特意製作了一段演示視頻，展示其在現實中”迷惑”YOLOv2 模型的能力。

圖 | ”對抗圖案”演示視頻截圖（來源：Simen Thys/KU Leuven）

不可否認，卷積神經網絡（CNN）作為近幾年人工智能（AI）技術發展的主流和前沿，許多應用已經開始融入普通人的生活。然而，它所存在的局限性也一定不能被否認和忽視。恰恰因為這些”漏洞”的存在，人們將更加努力地探索和發展這項新技術。未來，越來越多的 CNN 模型將會被創造或者改造，並終將為人類帶來更多的便利和價值。

參考：

https://arxiv.org/abs/1312.6199

http://www.ebenezertechs.com/mobilenet-ssd-using-opencv-3-4-1-deep-learning-module-python/

論文：

https://arxiv.org/abs/1904.08653

-End-

請隨簡歷附上3篇往期作品（實習生除外）