IBM亞馬遜研發對抗攻擊模型，撕破有害信息的偽裝！

智東西(公眾號:zhidxcom)

編 |王穎

導語：研究人員研發新算法，能夠對抗釋義攻擊問題，幫助建立更準確的文本AI模型。

智東西4月2日消息，在昨日史丹佛大學舉行的SysML AI會議上，來自IBM、亞馬遜和德克薩斯大學的研究人員展示了一種對抗“釋義”攻擊的通用框架，用以解決惡意軟體鑽文本分類算法漏洞、躲避有害信息篩查的問題，幫助建立更穩健的文本AI模型。

其研究論文名為《離散攻擊和子模塊優化在文本分類中的應用（Discrete Attacks and Submodular Optimization with Applications to Text Classification）》，於2018年12月1日提交。

由於自然語言處理（NLP）技術的進步，越來越多的公司和組織開始使用人工智能算法來執行與文本相關的任務，比如過濾垃圾郵件、分析社交媒體帖子和在線評論的情緒、評估簡歷和檢測假新聞。AI算法可以用來評估電子郵件的文本，將其歸類為“垃圾郵件”或“非垃圾郵件”。

然而，有些惡意行為者開始通過使用工具，在不修改文本核心意思的前提下，篡改即將輸入到AI模型的文本內容，導致文本分類算法錯將垃圾文本歸類於非垃圾文本，而人們仍能從這條被誤篩的信息時中讀出和原文無異的垃圾信息。這一惡意行為被稱之為“釋義攻擊（paraphrasing attacks）”，也就是本文中研究者們試圖解決的核心問題。

一、對抗釋義攻擊比圖像和音頻攻擊更難

在過去幾年，一些研究小組已經從多種探討了關於對抗攻擊的方方面面，修改輸入數據會導致AI算法對圖像和音頻樣本進行錯誤分類，而人類感官最終接收到的信息仍是原信息。

人工智能研究員、語言模型專家

Stephen Merity

表示，音頻和圖像與文本相比有很大的差異性。例如，圖像分類算法可以通過逐漸更改像素的顏色，觀察這些修改如何影響模型的輸出，這可以幫助研究人員找到模型中的漏洞。

由於文本具有離散性，所以相比圖像和音頻算法更難攻擊。IBM的研究員Pin-Yu Chen表示，對於圖像和音頻，進行對抗干擾是有意義的，但對於文本來說，即使只是對一個摘要的一兩個詞做一些小小的修改，也很難讓AI模型流暢的讀給人類。釋義攻擊就是這些攻擊的文本等價物。

二、修改內容但不改原義的典例

過去，針對文本模型的對抗攻擊（adversarial attacks）研究，主要是改變句子中的單個單詞。雖然這種方法成功地改變了AI算法的輸出，但它經常導致修改後的句子聽起來像是人為修改的。Pin-Yu Chen和他的同事們除了關注單詞的改變，更希望通過改寫句子和以有意義的方式改變更長的序列。

對抗釋義攻擊的研究，通過創建與目標句子語義相似的序列，來為攻擊提供更大的空間，並觀察模型是否將它們歸類為原始句子。

IBM 研究所的科學家Lingfei Wu表示，他們的研究人員開發了一種算法，可以在非常大的空間中搜索單詞和句子，目前這是最佳的搜索方式。通過修改搜索的內容，可以對AI模型的輸出產生很大影響。這種算法的主要難度是，確保文本的修改版本在語義上與原始版本相似。在該空間中找到最佳對抗示例非常耗時，但該算法具有計算效率，並且提供了理論上的保證。

此項研究中，研究人員還提供了改變情緒分析算法，假新聞檢測器和垃圾郵件過濾器行為的修改示例。例如，在一份產品評論中，只要把”定價比一些大牌集團便宜”這句話換成”價格比下面的一些大牌更便宜”，評論的情緒就從100％正面變為100％負面。

三、釋義攻擊成功的關鍵：易被人類忽視

釋義攻擊成功的關鍵在於它們是人類難以察覺的，因為它們保留了原始文本的語境和意義。Lingfei Wu說：“我們將原始段落和修改後的段落給了人類評估員，他們很難看到語義上的差異。但對於機器而言，它完全不同。”Stephen Merity指出，人類每天都會處理錯誤的輸入，所以讓人類去正確檢測出此類攻擊是不合適的。對我們來說，錯誤的輸入只是一些不連貫的句子，當人們現在看到拚寫錯誤時，並不認為這是一個安全問題。所在不久的將來，釋義攻擊可能是我們必須應對的嚴重問題。

釋義攻擊和對抗攻擊（adversarial attacks）將引發新的安全風險，許多科技公司依靠自動化決策對內容進行分類，它無法實現人與人之間的互動，這使得整個過程很容易受到攻擊。除了我們將會發現的邏輯漏洞，它還將與數據洩露同時發生。

四、對抗釋義攻擊技術構建更準確模型

研究人員發現，通過對抗釋義攻擊（reversing paraphrasing attacks），他們可以構建更健壯，更準確的模型。

在生成一個模型錯誤分類的釋義句子之後，開發人員可以用修改過的句子和正確的標簽對其重新進行訓練。這將使模型能更準確、更具彈性的抵禦釋義攻擊。

研究人員表示，對抗攻擊是這個項目中得到的驚人發現，這種方法不僅可以提高模型的穩健性，而且是一種可以提高模型能力的很好的泛化工具。

研究人員在對抗訓練前後測試了不同的單詞和句子模型，在所有案例中，測試活動模型的表現和對抗攻擊的能力都有所提高。

論文鏈接：https://arxiv.org/pdf/1812.00151.pdf

原文來自：VentureBeat