隔牆有耳！你的小秘密，Siri都幫你記著呢

你的AI助手，正在……可能正在竊聽你。

蘋果、微軟、Google……海外幾家大公司，都先後被曝出利用智能音箱/手機，偷錄用戶談話，並將部分含有用戶隱私之錄音，發送給了負責識別精確度核查的第三方承包商。

這些片段的內容五花八門：性錄音、家庭八卦、親友之間的通話內容……甚至還有疑似毒品交易現場的談話。而外包團隊在負責核查之餘，還會將含有“笑料”的片段，在公司內部傳播取樂。

一個AI背後，到底有多少人在偷聽你？

隔牆有耳

第一個倒下的是亞馬遜。

今年4月11日，彭博的一篇報導，拉開了“AI竊聽門”的序幕：亞馬遜為了強化Alexa智能助手的表現，在全球範圍內雇用了上千名人類員工，對Alexa智能音箱錄下的聲音片段進行人工審查和監聽。

一名人類員工，每天最多會聽到大約1000條亞馬遜發來的用戶錄音。他們需要將錄音轉述成文字，為特定的關鍵詞打上標記，最後再將轉寫下來的文字和音頻歸檔。

問題在於，亞馬遜送來的對話裡，有時會夾雜一些奇怪的東西：浴室裡傳來的跑調歌聲、小孩子的尖叫、模糊不清的求助聲……這些都是語音助手被誤喚醒時錄下的片段。而據報導，負責審核的員工們，似乎並不太在意這些錄音的私密性。遇到特別有意思的片段，還會在公司內部分享，以此取樂。

面對這種醜聞，亞馬遜方面迅速做出了回應，稱人類員工對錄音作出的標記，有助於Alexa改善理解能力。而且公司有著嚴格的保密措施，員工無法直接獲得跟錄音相關聯的账號信息。被標記的用戶錄音，也只是Alexa所錄片段中極少量的一部分。

7月份，事情開始失控：Google的語音助理也被曝出，有人類員工在背後監聽智能音箱，和手機App的錄音內容。外媒甚至拿到了一段Google語音助理錄下的片段，輕而易舉地找到了這份錄音的原主人。

等到月底，蘋果的Siri也加入了竊聽門的行列。由於Apple Watch更容易誤觸，審核人員聽到的內容也更加糟糕：拉拉鏈的聲音（顯然是剛上完廁所）、毒品交易現場、以及……不慎被HomePod/Apple Watch錄下來的滾床單片段。

說好的“What happens on your iPhone, Stays on your iPhone. ”呢？

8月份，更過分的來了：微軟被曝出監聽用戶的Skype通話內容，以及跟Cortana之間的交談記錄。據外媒報導，微軟這邊能聽到的內容也是五花八門：詳盡的地址信息、十分露骨的搜索請求、和某些不能詳細描述，反正是帶點顏色的Skype記錄。

至於監聽用戶Skype通話的理由，微軟後來回應稱，是為了改善那項2015年發布的，內置在Skype當中的AI同傳服務。只不過他們當時沒告訴你，除了AI之外，聽你說話的還有其他人。

最後一個淪陷的是Facebook。儘管沒有語音助手，但他們還是將旗下Facebook Messenger 中用戶發送的語音轉文字消息，通過外包方式交給了第三方進行核查。儘管波及範圍不如前面幾家公司廣泛，但爆料人士依然指出，有部分錄音內容“相當敏感”。

大公司們為什麽要做這種事？人工智能，不是挺聰明的嗎？

人工智能的B面

有多少智能，就有多少人工。

現如今什麽產品都講究一個“增智慧”。從AI攝影到AI助手，線上智慧生活無處不在。但鮮少人知的是，養AI跟養孩子差不多。需要有人不斷地教給它們什麽是對，什麽是錯，才能得到越來越精確的結果。

圖像分割、圖像識別、語音轉文字、語義分割……這些都需要有人類從旁協助。原始錄音就是問題，而人類整理好的謄寫內容，就像單詞卡片背面的答案。

人工智能越來越熱，這些用數據飼喂AI的人，也越來越多。需要讓AI理解人類語言？那就讓人類把一句話按照規則拆開，再交給程序去學習。需要讓AI學會看路？那就先讓真人把照片裡的車、人、路燈……統統做好標記，再交給AI去慢慢認就好了。

沒錯，拿脫敏過的用戶錄音給人類聽，再用結果去矯正AI，其實算是舉球通行的慣例。如果不信，你可以看看百度DuerOS的這份隱私政策：

以及，這是小愛同學的：

和天貓精靈的：

換句話說，你有權保持沉默（或者拔插銷），但你被錄下來的每一句話，不管有意還是無意，都可能成為餵養AI的飼料。而且他們並沒有告訴你，“用於改進和提高產品”的潛台詞是，你對音箱所說的話，也可能會有人類工作人員聽到。

嚴格來說，這些信息應當只在企業內部分享，而且員工對錄音內容負有保密義務。雖然你不小心被AI錄下來的黃段子（或者別的什麽更糟糕的東西）有一定概率會被人類聽到這件事非常讓人不爽，但平心而論，這算不上什麽隱私洩露事故。

當然了，這不代表這些做法沒問題，我們等會兒再說這個。

“飼養AI”曾經一度催生了龐大的下遊產業。智能音箱最火熱的時候，甚至出現了大量專做數據標注的外包團隊。不需要學歷，不需要經驗，經過簡單的培訓，一個人很快就能學會給圖片拉框，給人臉加點，把語音轉成文字……

不知道有沒有人意識到這當中的荒謬：從誕生的第一天起，這份工作的最高目標，就是消滅自身。

（這種驗證碼本質上也是數據標注）

還有一些公司，將這種“時間密集型”工作，做成了誰都可以在家賺外快的網絡任務。他們需要做的可能是教AI聽懂人話、識別人類的骨骼點，或者是給聊天機器人編寫一些有意思的回復。

被製作的素材，和標注數據的人一樣，都只是完成AI所必須的工具而已。

大數據=無隱私？

歡迎來到21世紀。

收集數據-脫敏-分析，是當代大數據應用的通行做法，也被多國監管部門認可。但是有研究表明，這種做法其實沒什麽作用。

英國倫敦帝國理工學院的研究人員，利用公開的匿名數據訓練了一個AI，結果隻用到了生日，性別，居住地郵編和子女數量，就能從匿名數據集中，定位出整個馬薩諸塞州79.4%的人口。如果特徵量進一步增加，準確度甚至能達到99%以上。

換句話說，即使拿掉了姓名、電話和身份證號，還是有辦法從大數據中找出特定的某個人。何況根據之前的報導，審查人員還是能聽到用戶親口說出的私密內容。所謂的隱私把控，好像從數據脫敏這一步開始就已經失靈了。

更可怕的是，集中存放的隱私數據，本身就是一塊閃光的肥肉：海外一間指紋鎖公司Suprema由於安全漏洞，被人摸到了超過100萬人的指紋和人臉識別數據，且關鍵信息大多未經加密。密碼泄漏可以再改，人臉識別數據被人偷走，恐怕只有換臉才能解決。

（泄漏出來的後台數據截圖）

隨著智能設備越來越深入地進入家庭，我們在各種系統中被留下，又被泄漏的痕跡，只會越來越多。這樣說來，在家裡洗澡時的跑調歌聲被數據標注員聽到，已經是各種AI相關事故裡危害最小的一種。

數據就是力量

某種意義上說，被大數據和AI包圍的，極端便利的現代生活，是以我們對自身隱私數據的讓渡為代價的。麥克風、攝影頭、GPS、指紋傳感器……他們收集到的數據，隨時可以成為追蹤和監看你的絕好素材。差別在於，看著這些數據的究竟是無感情的機器，還是活生生的，懷有善意或惡意的人類？

大多數人對此毫無知覺，也沒法控制。被曝光之後，海外的幾家大公司，都先後宣布停止了外包團隊對用戶錄音的審核。Alexa和Google也提供了入口，允許用戶刪掉他們留在平台上的錄音資料。起碼在海外，他們對自己的數據多了一點掌控。

但在國內，想刪除自己的數據沒這麽容易。小米和百度的個人信息刪除，都需要向指定郵箱發送郵件來提出申請，天貓精靈則需要聯繫客服。而且跟海外不同，這些刪除請求都帶有非常嚴格的附加限制。

這些東西都藏在幾乎沒人會讀的隱私條款裡。粗略看下來，一個普通用戶想刪掉自己的個人信息，難如登天。

跟AI一同走向成熟的這一代人，已經不可避免地，成了大公司喂飼給機器學習的數字飼料。唯一的問題是，等到AI足夠聰明的那天，這種飼喂會停下來嗎？

或者說，下一代人還會在乎這件事嗎？