每日最新頭條.有趣資訊

隔牆有耳!你的小秘密,Siri都幫你記著呢

你的AI助手,正在……可能正在竊聽你。

蘋果、微軟、Google……海外幾家大公司,都先後被曝出利用智能音箱/手機,偷錄用戶談話,並將部分含有用戶隱私之錄音,發送給了負責識別精確度核查的第三方承包商。

這些片段的內容五花八門:性錄音、家庭八卦、親友之間的通話內容……甚至還有疑似毒品交易現場的談話。而外包團隊在負責核查之餘,還會將含有“笑料”的片段,在公司內部傳播取樂。

一個AI背後,到底有多少人在偷聽你?

隔牆有耳

第一個倒下的是亞馬遜。

今年4月11日,彭博的一篇報導,拉開了“AI竊聽門”的序幕:亞馬遜為了強化Alexa智能助手的表現,在全球範圍內雇用了上千名人類員工,對Alexa智能音箱錄下的聲音片段進行人工審查和監聽。

一名人類員工,每天最多會聽到大約1000條亞馬遜發來的用戶錄音。他們需要將錄音轉述成文字,為特定的關鍵詞打上標記,最後再將轉寫下來的文字和音頻歸檔。

問題在於,亞馬遜送來的對話裡,有時會夾雜一些奇怪的東西:浴室裡傳來的跑調歌聲、小孩子的尖叫、模糊不清的求助聲……這些都是語音助手被誤喚醒時錄下的片段。而據報導,負責審核的員工們,似乎並不太在意這些錄音的私密性。遇到特別有意思的片段,還會在公司內部分享,以此取樂。

面對這種醜聞,亞馬遜方面迅速做出了回應,稱人類員工對錄音作出的標記,有助於Alexa改善理解能力。而且公司有著嚴格的保密措施,員工無法直接獲得跟錄音相關聯的账號信息。被標記的用戶錄音,也只是Alexa所錄片段中極少量的一部分。

7月份,事情開始失控:Google的語音助理也被曝出,有人類員工在背後監聽智能音箱,和手機App的錄音內容。外媒甚至拿到了一段Google語音助理錄下的片段,輕而易舉地找到了這份錄音的原主人。

等到月底,蘋果的Siri也加入了竊聽門的行列。由於Apple Watch更容易誤觸,審核人員聽到的內容也更加糟糕:拉拉鏈的聲音(顯然是剛上完廁所)、毒品交易現場、以及……不慎被HomePod/Apple Watch錄下來的滾床單片段。

說好的“What happens on your iPhone, Stays on your iPhone. ”呢?

8月份,更過分的來了:微軟被曝出監聽用戶的Skype通話內容,以及跟Cortana之間的交談記錄。據外媒報導,微軟這邊能聽到的內容也是五花八門:詳盡的地址信息、十分露骨的搜索請求、和某些不能詳細描述,反正是帶點顏色的Skype記錄。

至於監聽用戶Skype通話的理由,微軟後來回應稱,是為了改善那項2015年發布的,內置在Skype當中的AI同傳服務。只不過他們當時沒告訴你,除了AI之外,聽你說話的還有其他人。

最後一個淪陷的是Facebook。儘管沒有語音助手,但他們還是將旗下Facebook Messenger 中用戶發送的語音轉文字消息,通過外包方式交給了第三方進行核查。儘管波及範圍不如前面幾家公司廣泛,但爆料人士依然指出,有部分錄音內容“相當敏感”。

大公司們為什麽要做這種事?人工智能,不是挺聰明的嗎?

人工智能的B面

有多少智能,就有多少人工。

現如今什麽產品都講究一個“增智慧”。從AI攝影到AI助手,線上智慧生活無處不在。但鮮少人知的是,養AI跟養孩子差不多。需要有人不斷地教給它們什麽是對,什麽是錯,才能得到越來越精確的結果。

圖像分割 、圖像識別、語音轉文字、語義分割……這些都需要有人類從旁協助。原始錄音就是問題,而人類整理好的謄寫內容,就像單詞卡片背面的答案。

人工智能越來越熱,這些用數據飼喂AI的人,也越來越多。需要讓AI理解人類語言?那就讓人類把一句話按照規則拆開,再交給程序去學習。需要讓AI學會看路?那就先讓真人把照片裡的車、人、路燈……統統做好標記,再交給AI去慢慢認就好了。

沒錯,拿脫敏過的用戶錄音給人類聽,再用結果去矯正AI,其實算是舉球通行的慣例。如果不信,你可以看看百度DuerOS的這份隱私政策:

以及,這是小愛同學的:

和天貓精靈的:

換句話說,你有權保持沉默(或者拔插銷),但你被錄下來的每一句話,不管有意還是無意,都可能成為餵養AI的飼料。而且他們並沒有告訴你,“用於改進和提高產品”的潛台詞是,你對音箱所說的話,也可能會有人類工作人員聽到。

嚴格來說,這些信息應當只在企業內部分享,而且員工對錄音內容負有保密義務。雖然你不小心被AI錄下來的黃段子(或者別的什麽更糟糕的東西)有一定概率會被人類聽到這件事非常讓人不爽,但平心而論,這算不上什麽隱私洩露事故。

當然了,這不代表這些做法沒問題,我們等會兒再說這個。

“飼養AI”曾經一度催生了龐大的下遊產業。智能音箱最火熱的時候,甚至出現了大量專做數據標注的外包團隊。不需要學歷,不需要經驗,經過簡單的培訓,一個人很快就能學會給圖片拉框,給人臉加點,把語音轉成文字……

不知道有沒有人意識到這當中的荒謬:從誕生的第一天起,這份工作的最高目標,就是消滅自身。

(這種驗證碼本質上也是數據標注)

還有一些公司,將這種“時間密集型”工作,做成了誰都可以在家賺外快的網絡任務。他們需要做的可能是教AI聽懂人話、識別人類的骨骼點,或者是給聊天機器人編寫一些有意思的回復。

被製作的素材,和標注數據的人一樣,都只是完成AI所必須的工具而已。

大數據=無隱私?

歡迎來到21世紀。

收集數據-脫敏-分析,是當代大數據應用的通行做法,也被多國監管部門認可。但是有研究表明,這種做法其實沒什麽作用。

英國倫敦帝國理工學院的研究人員,利用公開的匿名數據訓練了一個AI,結果隻用到了生日,性別,居住地郵編和子女數量,就能從匿名數據集中,定位出整個馬薩諸塞州79.4%的人口。如果特徵量進一步增加,準確度甚至能達到99%以上。

換句話說,即使拿掉了姓名、電話和身份證號,還是有辦法從大數據中找出特定的某個人。何況根據之前的報導,審查人員還是能聽到用戶親口說出的私密內容。所謂的隱私把控,好像從數據脫敏這一步開始就已經失靈了。

更可怕的是,集中存放的隱私數據,本身就是一塊閃光的肥肉:海外一間指紋鎖公司Suprema由於安全漏洞,被人摸到了超過100萬人的指紋和人臉識別數據,且關鍵信息大多未經加密。密碼泄漏可以再改,人臉識別數據被人偷走,恐怕只有換臉才能解決。

(泄漏出來的後台數據截圖)

隨著智能設備越來越深入地進入家庭,我們在各種系統中被留下,又被泄漏的痕跡,只會越來越多。這樣說來,在家裡洗澡時的跑調歌聲被數據標注員聽到,已經是各種AI相關事故裡危害最小的一種。

數據就是力量

某種意義上說,被大數據和AI包圍的,極端便利的現代生活,是以我們對自身隱私數據的讓渡為代價的。麥克風、攝影頭、GPS、指紋傳感器……他們收集到的數據,隨時可以成為追蹤和監看你的絕好素材。差別在於,看著這些數據的究竟是無感情的機器,還是活生生的,懷有善意或惡意的人類?

大多數人對此毫無知覺,也沒法控制。被曝光之後,海外的幾家大公司,都先後宣布停止了外包團隊對用戶錄音的審核。Alexa和Google也提供了入口,允許用戶刪掉他們留在平台上的錄音資料。起碼在海外,他們對自己的數據多了一點掌控。

但在國內,想刪除自己的數據沒這麽容易。小米和百度的個人信息刪除,都需要向指定郵箱發送郵件來提出申請,天貓精靈則需要聯繫客服。而且跟海外不同,這些刪除請求都帶有非常嚴格的附加限制。

這些東西都藏在幾乎沒人會讀的隱私條款裡。粗略看下來,一個普通用戶想刪掉自己的個人信息,難如登天。

跟AI一同走向成熟的這一代人,已經不可避免地,成了大公司喂飼給機器學習的數字飼料。唯一的問題是,等到AI足夠聰明的那天,這種飼喂會停下來嗎?

或者說,下一代人還會在乎這件事嗎?

獲得更多的PTT最新消息
按讚加入粉絲團