每日最新頭條.有趣資訊

黑客攻擊機器學習漏洞將是人工智能面臨的挑戰

據國外媒體報導,數據為人工智能革命提供了動力。然而安全專家們發現,完全可以通過篡改數據集或現實環境來攻擊人工智能,對抗性的機器學習研究表明人工智能可能會被黑客攻擊,從而做出完全錯誤的決策。

神經網絡把一張關於烏龜的照片看成了來複槍。一輛自動駕駛汽車從一個停車標誌旁飛馳而過,只是因為一個精心製作的貼紙迷惑了電腦視覺。一副眼鏡就把面部識別技術搞糊塗了,誤以為某人是好萊塢女影星米拉·喬沃維奇(Milla Jovovich)。對人工智能進行黑客攻擊成為了一種新的安全危機。

為了防止一些犯罪分子想要通過篡改數據集或現實環境來攻擊人工智能,研究人員轉向對抗性的機器學習研究。在這種情況下,研究人員對數據進行修改,從而欺騙神經網絡和人工智能系統,讓它們看到不存在的東西,忽略存在的東西,或者使得其關於分類對象的決策完全錯誤。

就像谷歌和紐約大學研究人員所做的那樣,在一輛校車的照片上加上一層對人類來說無形的數據噪聲,神經網絡就會報告說,它幾乎可以肯定那是一隻鴕鳥。不僅僅是影像可以這樣:研究人員已經將隱藏的語音指令嵌入到廣播中,從而控制智能手機,同時不會讓人們察覺。

雖然這類工作現在被描述為一種攻擊,但從哲學角度來說,對抗性的例子最初被視為神經網絡設計中的一個近乎盲點:我們假設機器以我們同樣的方式看東西,它們用與我們相似的標準來識別物體。2014年,谷歌研究人員在一篇關於“神經網絡的有趣特性”的論文中首次描述了這一想法,該論文描述了如何在影像中添加“擾動”元素會導致神經網絡出現錯誤——他們稱之為“對抗性示例”。他們發現,微小的扭曲就可能會騙過神經網絡,使其誤讀一個數字或誤將校車當成別的什麽東西。這項研究對神經網絡 “固有盲點”以及它們在學習過程中的“非直覺特徵”提出了質疑。換句話說,我們並不真正了解神經網絡是如何運作的。

加州大學伯克利分校(University of California, Berkeley)電腦科學教授唐恩·宋(Dawn Song)表示:“對抗性示例說明,我們對深度學習的原理及其局限性的理解仍然非常有限。”宋是四所大學聯合進行對抗性研究的幾位研究人員之一,他們共同開發了停車標誌貼紙來干擾自動駕駛汽車。

華盛頓大學(University of Washington)電腦安全研究員厄爾倫斯·費爾南德斯(Earlence Fernandes)也從事停車標誌研究,他表示:“攻擊的範圍很廣,取決於攻擊者處在機器學習模型生成過程的哪個階段。” 費爾南德斯舉例說,在開發機器學習模型時可進行訓練時間攻擊,也就是使用惡意數據來訓練系統。他表示:“在人臉檢測算法中,攻擊者可能會用惡意數據對模型施以毒害,從而使檢測算法將攻擊者的臉識別為授權人。”

另一方面,推理時間攻擊則是通過一系列算法——比如快速梯度符號法(Fast Gradient Sign Method,FGSM)和當前最優攻擊方法(Carlini and Wagner)是兩種最流行的算法——向模型顯示精心製作的輸入,從而迷惑神經網絡。

隨著人工智能滲透到我們生活的方方面面——駕駛汽車、分析影片監控系統、通過面部識別某人身份——對這些系統的攻擊變得更加可能,也更加危險。黑客修改路邊交通標誌可能會導致車禍和人員傷害。對數據機器學習系統的細微改變也會導致人工智能系統做出的決策出現偏差。

但我們不應該過分擔心。麻省理工學院的研究員安尼施·安塞也(Anish Athalye)指出,“據我們所知,這種類型的攻擊目前還沒有在被現實世界中的惡意組織所采納過。但考慮到這一領域的所有研究,似乎很多機器學習系統都非常脆弱,如果現實世界的系統很容易就遭到了這種攻擊,我也不會感到驚訝。”

安塞也自己的研究旨在使對抗性攻擊更加健壯。一些被歸為“標準”的攻擊隻從特定的角度進行,而另一些攻擊則不管神經網絡從什麽角度觀察物體或影像都可以進行。 “標準的對抗性例子是通過微調影像中的像素,從而將神經網絡對目標影像的分類轉移到其它類別——比如說把貓的影像歸類為鱷梨沙拉醬。”他說,“一次又一次地重複這個過程,做出微小的改變,結果是有可能製作出一幅對人來說像一樣東西的影像,卻會讓機器誤一位完全不同的東西。”他說,研究表明,標準對抗性攻擊是“脆弱的”,在現實世界中不太可能站得住腳。

因此,安塞也和他在麻省理工學院人工智能實驗室LabSix的同事們開發了更好的示例,優化了攻擊影像,使其不用考慮角度或距離問題都可起作用。他說:“我們還把它擴展到3D影像,這樣你就可以有一個在人類看起來像烏龜的物體,但從機器角度觀察卻完全不同。”這其中就包括他的3D列印玩具龜,但在ImageNet分類器看來,它就像一把來複槍。

如果攻擊只能以精確的角度起作用,或者干擾因素很容易被人類發現,那麽攻擊就沒有什麽用處。以自動駕駛汽車為例,它們往往通過依賴神經網絡識別物體的電腦視覺技術來觀察外部世界。這樣的話,任何對抗性的招數都必須在每個觀察角度起作用,也不會受到遠近距離的影響,更不會被人類司機注意到,畢竟沒有人能讀懂一個被塗過油漆的交通標誌。包括費爾南德斯(Fernandes)和宋(Song)在內的研究人員都成功地做到了這一點,他們使用不會模糊標識的細微油漆標記以及看起來像塗鴉的貼紙干擾路邊的停車標誌,卻導致神經網絡將“停止”解釋為速度限制。

“從一個較高的層次看,這種攻擊的方式是訪問目標深度學習模型,然後運行一個算法來計算需要對物理對象進行何種編輯,從而使生成的影像從人類視覺看與某種原始物體相似,但對於機器學習模型來說完全是另一種東西,”費爾南德斯說。“在這種情況下,我們的算法輸出需要在影像中添加的元素。在我們的例子中就是貼紙,所以我們把它們列印在紙上,然後簡單地貼在一個路邊的停止標誌上。

這沒有理由引起恐慌。費爾南德斯解釋說,僅僅在停止交通標誌上貼上這些貼紙是不會讓自動駕駛汽車發生事故的。自動駕駛汽車會使用多個傳感器和算法,不會就任何單一的機器學習模型做出決定。“因此,儘管我們的工作可以愚弄單一的機器學習模型,但這並不意味著這種愚弄就足以造成真實傷害,”他說。

開發對抗性的示例並非易事,通常需要搞清楚包括模型架構在內的神經網絡技術細節,這往往稱為“白盒”訪問。也就是說,真正具有強大破壞性的攻擊並不需要詳細的神經網絡資訊;事實可能會證明,這些黑盒攻擊對外部攻擊系統更有用,因為它們可以應用到不同的神經網絡。

現在需要開展工作,從而防止機器學習因其固有的弱點而變得無用。雖然已經有了很多的解決方案,但到目前為止還沒有明確的防禦措施。密歇根大學(University of Michigan)研究員凱文·埃克霍爾特(Kevin Eykholt)表示:“檢測對抗性示例的防禦措施,以及消除對抗性示例存在的防禦措施,是相關研究領域的一個活躍領域。很多新防禦被提出,而又以非常快的速度被打破。”他補充說:“在設計機器學習系統的時候不是盲目的設計系統,重要的是要注意並可能減輕對抗性攻擊的特定風險,並考慮到一旦發生相關情況該做出何種反應。”

安塞也說,有一個想法很有希望,那就是訓練神經網絡,通過對抗性示例包含在訓練數據中來提高識別神經網絡的健壯性。他說:“通過這種方式,神經網絡‘學會’對對抗性示例有一定的抵抗力。”

費爾南德斯說,在機器學習的核心發現這樣的缺陷並不令人驚訝,因為系統通常在普及之前並不會經過良好的測試。“隨著機器學習變得越來越普遍,安全研究人員會開始從對抗的角度來研究它,並發現其中一些可以利用的東西,這是很自然的,” 費爾南德斯如是指出。

這不僅是一個技術缺陷,也是一個哲學假設。首先,當攻擊者可以自由操縱數據獲取優勢時,機器學習開發人員會假定訓練數據和測試數據是相似的。第二,我們往往認為神經網絡像我們一樣思考,但實際上並不是如此;神經網絡用來識別玩具龜的元素與我們所尋找的不同,而這種差異性正是攻擊的突破口。費爾南德斯說:“神經網絡是非常粗略地模擬人類大腦。試圖將它們視為與我們大腦類似的運作方式,可能並不是思考它們的最佳方式。”

獲得更多的PTT最新消息
按讚加入粉絲團