圓栗子發自麥蒿寺

量子位出品 | 公眾號 QbitAI

和AI一起聽小鳥的叫聲吧，它可能會給你一些“驚喜”。

就是這一段：

△上方文字矚目：這是Kaldi的語音識別結果

貨真價實童叟無欺的鳥鳴，但是，你可能也注意到了影片上方有一行字：

Visit evil dot net and install the backdoor.

語音識別AI，從鳥鳴中聽出了奇怪的命令：要訪問邪惡網站evil.net，還要安裝後門。

指令中的網址和後門當然是憑空胡編的，不過，也直白得足夠讓人驚出一身冷汗。我們身為人類，什麽也沒聽出來，可是AI卻……

能把這樣一段話藏到鳥鳴裡，那麽黑客想要設計一些隱藏指令，在人類耳根底下悄悄指揮智能音箱，下個單付個款控制個智能門鎖什麽的，豈不也是輕而易舉？

這段有貓膩的鳥鳴，是一群德國科學家製造出來的，第一件原材料，是這段人畜無害純天然的鳥鳴：

雖然聽起來和開頭那段差不多，但這是真正的鳥鳴，語音識別AI只能勉強胡亂匹配兩個單詞出來。

要想達到文章開頭的效果，就要用到第二件原材料了：

上面這段噪音就是罪魁禍首。單聽雜亂無章，通過一些“化學反應”疊加到鳥鳴的原始音頻裡，AI便收到了噪音要傳達的資訊。

用這些原料製造出讓人類沒有防備，又帶偏AI節奏的一石二鳥邪惡音頻，並非簡單的操作，需要用上深度學習。

先騙AI再騙人

如何迷惑神經網絡？

機器學習裡有個冉冉升起的研究領域，叫對抗性攻擊(Adversarial Attacks) 。

這種對深度神經網絡的誤導，在視覺上比較常見。大家可能還記得，MIT團隊曾經騙過谷歌AI，讓它把一隻3D列印的烏龜認成了步槍。

MIT開發的EOT算法，能識別帶有紋理的3D模型，再對原本的紋理做些微小的改變，就生成了“對抗性影像(Adversarial Image) ”。

肉眼看去，對面依然是隻烏龜。可AI看到的已經是完全不同的東西了。

把視覺換成聽覺，原理也相差不多。

在原始音頻和隱藏指令之間，能找到一種美妙的融合。不論本來的聲音是鳥叫，還是人類的歌聲，或者什麽別的音色，都不是問題。

融合的方法，就來自德國波鴻大學（Ruhr-Universitaet in Bochum）一群科學家們的研究。他們運用深度學習生成對抗樣本(Adversarial Example) ，來誤導當下主流的語音識別系統Kaldi，分三步走：

第一步，輸入原始音頻 (比如“我愛學習”) 以及目標指令 (比如“放棄治療”) ，用強製對齊(Forced Alignment) 找到二者之間最佳的時間對齊(Temporal Alignment) 方式。

第二步，用反向傳播來改變輸入的“我愛學習”聲波，從而令語音識別AI把它轉寫成“放棄治療”。

第三步，便是欺騙人類了。請繼續閱讀。

△若字幕組能騙過你的眼睛，耳朵大概也不難騙?

如何躲避人類的疑心？

要給語音助手下達隱藏指令，只要生成特定的波形就做得到。但在送信的時候，還要避免被人類發現。

這裡用到的方法叫做心理聲學隱藏(Psychoacoustic Hiding) ：

算法知道，你會對怎樣的噪音缺乏警惕。

這就涉及到人類聽覺的一個弱點，叫掩蔽效應(Masking Effect) 。

當兩種聲音同時傳進耳朵，人類會對音量更大的那段聲波比較敏感，對微弱的那一段就不敏感。

團隊用了一個心理聲學模型，來分析將哪些聲音疊加到原始音頻裡，不易影響人類感知，然後在這個範圍裡悄悄改變聲波就行了，神不知鬼不覺。

你聽，音頻裡說的是不是這句話：

再普通不過的新聞內容。

但語音識別的結果，卻是完全不同的句子了：

竟然聽成了關閉監控攝影頭並打開房門？

細思恐極。

能打開你家大門？

攻擊方法有了，怎樣讓人類主動播放這些“轉基因”的音頻，給語音助手聽個清楚？

想也容易，只要在大家聽的音樂、看的電影、或者刷的劇裡面，偷偷混入一小段：

一是很難讓人產生警覺，二是攻擊範圍非常廣泛，可至全球。只要公放聲音，就可能順利控制語音助手。

畢竟，如今的許多智能音箱，都可以用語音來購物。這樣的話，銀行卡就可能遇到危機。

確實，付款環節可以開啟密碼保護，但至少在Alexa身上，密碼功能是默認關閉的。

以上並非全部。

如果，智能音箱 (或者其他什麽設備) 的語音助手連接著整個智能家居系統，包括攝影頭和安全警報系統呢？

友情提示，上一章節末尾，那條被修改過的音頻，裡面藏的就是關閉攝影頭並打開房門的指令。

群起而攻之

當然，也不用太害怕了。

畢竟，攻擊語音助手，招式早就不止那一種。

海豚音攻擊

這是浙江大學團隊去年發表的成果，可以利用人類聽不到的超聲波，向語音助手傳遞隱藏指令。

人類聽不到的波段，卻被麥克風收錄起來，又被系統解調成人類語音的頻率。這樣一來，語音識別AI收到的波形，就和原本的樣子完全不同了。

團隊表示，他們已經用超聲波發射裝置，攻擊過谷歌助手、亞馬遜Alexa、微軟Cortana、蘋果Siri、三星S Voice和華為HiVoice，語音助手全員敗陣。

並且，即便是擁有聲紋保護的語音助手，也不能保證安全。因為，黑客仍然可以用語音合成來模擬聲紋，攻入設備。

不過，超聲波這個強大的方法也有缺點，一種算法只能針對一種特定的麥克風。畢竟，要在收音上做文章，不同的麥克風情況會有不同。

同音字攻擊

一種名叫“Voice Squatting”的招數，利用了語音助手的三方應用市場。

每個開發者都可以發布，自己為Alexa編寫的技能 (Skills) 。黑客也可以開發一些惡意技能，關鍵是讓用戶在無意中觸發這樣的技能：

只要惡意應用的名字，和某個正常程式的發音足夠相似就可以了，簡單易行。

△Alexa畢竟沒有螢幕

比如，已知有一款叫做Rat Game的遊戲，那給惡意應用起名“Rap Game”，就能騙過Alexa。

這兩個字還不算同音，而Capital One(第一資本App) 和Captial Won(惡意技能可取的名字) 之間，應該更難找到破綻。

當智能音箱打開一個冒牌App，用戶以為打開的依然是平時常用的軟體，就可能在不經意間向惡意應用輸入自己的重要資訊了。

遠程竊聽術

騰訊團隊在今年的DefCon大會上，成功演示了攻入亞馬遜第二代Echo智能音箱，控制設備，竊取錄音的方法：

多虧Echo有多台設備聯網功能，只要連接相同的WiFi，幾台智能音箱之間，就能通過名叫“Whole Home Audio Daemon”的守護進程相互交流。

研究人員讓一台改裝過的Echo，和一台普通Echo連上同一WiFi，利用守護進程的一系列bug，魅惑了多台音箱。

這樣，想讓它播放什麽聲音，就播放什麽聲音，還可以把麥克風捕捉的音頻偷偷傳到遠程伺服器裡，實現竊聽。而用戶全程不會收到任何警報。

當然，騰訊團隊事先告知了亞馬遜，後者火速發布一塊補丁，解決了這個問題。

網絡安全領域的科學家們，一向熱衷於探索智能設備的漏洞。

亞馬遜音箱Echo和裡面的助手Alexa，可能是他們最常用的小白鼠，研究成果大多誕生於此也很自然。

不過，現實裡還沒有發現類似的攻擊事件。在這段暫時安全的日子，不斷中槍的亞馬遜，以及其他科技大廠，也可借鑒所有被黑的經驗，把產品更新成更加安全可靠的樣子。

黑客和智能設備，不知將來誰會跑得更快。但對兩者來說，都是有了對方，才能更努力地往前跑吧。

論文傳送門：

https://arxiv.org/pdf/1808.05665.pdf

—完—

加入社群

量子位AI社群28群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字“專業群”，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復“招聘”兩個字。

鳥叫就能黑掉AI系統，而且你根本察覺不到

如何迷惑神經網絡？

如何躲避人類的疑心？

海豚音攻擊

同音字攻擊

遠程竊聽術