AI把“狗”認成“貓”，只因它在捕捉人類看不到的特徵

近日，一個來自麻省理工學院（MIT）的團隊公開了他們的研究成果。該文章指出，對抗樣本(Adversarial Sample)導致圖像識別（Image Classification）失效的現象，或許只是人類的一種“自以為是”。識別模型捕捉的，其實是那些不能被人眼察覺的“非穩健特徵”（Non-robust Feature）。如果只是基於這些像素層面的特徵，模型對對抗樣本的識別就不能被認為是失敗的。

圖|左為自然圖片，識別為“小狗”。右為刻意修改後的對抗樣本，識別為“鴕鳥”。（來源：Christian Szegedy/Google Inc.）

目前許多研究機構（如谷歌公司、麻省理工學院和騰訊科恩實驗室）都在嘗試解決對抗樣本問題。其中主要的難題存在於三個方面，首先是視覺世界的複雜性，比如一張圖片中通常存在上百萬個像素點。其次，我們並沒有徹底地理解卷積神經網絡模型（CNN）實現圖像識別的機制。此外，科學家不知道識別模型失效的原因是訓練方式的問題還是訓練數據量不夠大？

麻省理工學院的科研團隊發現，目前常用的識別模型其實是通過關注圖片中，人眼無法察覺的細節來實現圖像識別。就如同人類會對比耳朵的不同，而將狗和貓的照片區分出來一樣。但是AI模型卻是在像素的層面進行區分。

論文的第一作者，麻省理工學院在讀博士生 Andrew Ilyas 說道：“對於那些像素層面的特徵，它們最大的特點就是不會被人眼察覺。”

想要弄明白 AI 到底是依據什麽特徵來識別圖像並不容易。Andrew Ilyas等人首先定義了一整套理論框架。他們把圖片中的特徵分成兩類：“穩健特徵”(Robust Features)，指即使做了像素層面的修改也不會影響識別結果的特徵（如耳朵、胡須），和 “非穩健特徵”(Non-robust Features)，即會被像素修改而影響的特徵（通常無法被人類識別）。

其次，他們又定義了兩種訓練模型的方法，“標準訓練”（Standard Training）和“穩健訓練”（Robust Training）。穩健訓練的損失方程額外考慮了對抗樣本的存在，使得模型在訓練中可以強化對穩健特徵識別。

圖|標準訓練和穩健訓練的損失方程。穩健訓練中劃線的部分表示修改原始數據，使之成為對抗樣本。（來源：Andrew Ilyas/MIT）

他們假設穩健特徵和非穩健特徵同時存在。並且使用和生成對抗網絡（GAN）相似的方法，將原始的訓練數據集（D）中的圖片進行重新加工，生成了兩個新的數據集：將非穩健特徵洗刷掉、隻含穩健特徵的 D_R，和在人類看來錯誤標注、但非穩健特徵符合其標注的 D_NR。

圖|左：原始訓練數據 D，隻含穩健特徵的 D_R，和失去特徵一致性的 D_NR。右：三種數據集在不同訓練方式下的準確率。（來源：Andrew Ilyas/MIT）

研究人員指出，由於只有穩健特徵，D_R 所含的信息量少於原始數據 D。實驗發現，再以 D_R 為基礎，以標準訓練的方法得到的識別模型，同樣可以抵禦對抗樣本。以此證明像素層面的修改（人眼無法分辨），並不影響圖片中的穩健特徵。

另一方面，研究人員對訓練數據（D）進行像素層面的修改，並且不斷優化，讓標準模型盡可能地把圖片識別成另一個類型。比如，穩健特徵（人眼觀察）是“狗”，而非穩健特徵和標注（模型認為）則是“貓”。

研究人員將經過修改的圖片集計作 D_NR，並找來一張訓練數據之外的自然中“貓”圖片進行測試。識別器成功把這張外來的圖片也識別成了“貓”。說明這張自然的“貓”，和 D_NR 中的“貓”具有可以被模型識別的相同屬性，而這個屬性就是我們看不到的“非穩健特徵”。

圖|圖中右側“狗”的圖像，和下方“貓”的圖像，都被識別成了“貓”，他們有相同的非穩健特徵。（來源：Andrew Ilyas/MIT）

通過實驗，Andrew Ilyas 和他的團隊確定：穩健特徵和非穩健特徵都存在於圖片之中，並且一般的識別模型只會通過非穩健特徵進行圖像識別，而非穩健特徵不能被人眼察覺。所以，對抗樣本本身並不是圖像識別的漏洞，只是另外一種無法被我們看到的特徵而已。

“這並不是模型本身有什麽問題，只是那些真正決定識別結果的東西並不能被看到。”該論文第二作者、麻省理工學院在讀博士生 Shibane Santurkar 補充道：“如果我們只知道算法的決策取決於一些我們看不見的東西，那我們又怎麽能理所當然地以為它做的決定就是正確的？”如果一個人需要在法庭上證明監控視頻中的人不是自己就會非常麻煩，因為我們不知道監控識別的錯誤結果是怎麽得來的。

科學家始終需要面對一個抉擇，模型究竟是應該做出“準確”的決定，還是應該做出“人類”的決定？如果模型只是識別穩健特徵，它或許就不會那麽準確。然而如果決策機制偏向不能被看到的非穩健特徵，那麽對抗樣本就會成為潛在的漏洞。如今，圖像識別技術已廣泛應用在日常生活中，我們需要在這兩個選擇之間找到某種平衡。

參考：

http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

https://www.wired.com/story/adversarial-examples-ai-may-not-hallucinate/

https://arxiv.org/abs/1312.6199

論文：

https://arxiv.org/abs/1905.02175

請隨簡歷附上3篇往期作品（實習生除外）