細思極恐有人正在聆聽你和亞馬遜人工助手的對話……

公開日: 2019-04-12

【財聯社】（編輯袁曉茜）和其他花重金投資人工智能（AI）的科技巨頭一樣，亞馬遜（Amazon）也在有序的推進人工智能助手Alexa。“我們用越多的數據訓練這些系統，Alexa就會表現的越好。用各種各樣不同的聲音訓練Alexa，有助於Alexa更好的服務每一個人。”Alexa使用說明書中寫道。

公司沒有清清楚楚地告訴你，Alexa長期以來的提升靠的是真實的人類來聽取你的需求。當然，這些都隱藏在了只有少數人會去閱讀“產品和服務”條款裡。亞馬遜淡化全球上百萬個家庭的人們使用攝影和聽筒功能的隱私權限。但是鑒於人工智能在人們日常中的訓練越來越普遍，需要引起人們的警覺。特別是這些科技工作大部分都保持隱秘狀態，並使用了亞馬遜不願意透露的方式。

在這個情況裡，被叫做數據注釋的過程，已經成為機器學習革新的基石，在自然語言處理、機器翻譯、圖像和實物識別上取得了重大的進展。人工智能算法只有在數據可以被輕易解析和分類時才能得到提高，也就是說可以自我訓練。可能Alexa沒有聽清你的指令，或者系統認為你詢問的是紐約西部郊區的“布萊頓”，而不是英國城市“布萊頓”。如果用不同的語言來處理，就會有數不清的細微差別，比如俚語和口音。這些並沒有在Alexa語言系統升級的過程裡被考慮到。

在許多情況下，人類聽錄音並且給數據打標簽，把數據反饋給系統，從而發出了這些呼叫。這個過程被叫做監督學習。有時與更多的自主技術相匹配，這些被稱作半監督學習。蘋果（Apple）、谷歌（Google）和Facebook都以相似的方法使用這些技術。Siri和谷歌助手都隨著時間的推移而有所改進，這要歸功於需要人類幫助的監督學習。

在這個案例中，彭博（Bloomberg）揭露了亞馬遜全球數千名員工的真實情況，其中包括一些承包商和一些全職員工，他們通過解析Alexa錄音來提高其的能力。雖然這個方法本身並不邪惡，但彭博指出大部分人沒有意識到這種情況正在發生。此外，錄音也會被濫用。錄音中可能包含明顯可識別的特徵和有關說話者的個人信息。目前還不清楚這些錄音的確切存儲時間，以及這些信息是否曾被惡意第三方竊取或被員工濫用。

在一份聲明中，亞馬遜告訴彭博，“我們只會對Alexa錄音片段中極其微小的部分做注解，以提高顧客的體驗。比如，這個信息幫助我們訓練語速識別和自然語言理解系統，所以Alexa可以更好的理解顧客的需求，確保該項服務對每個人都有效。”亞馬遜發表聲明稱，他們擁有嚴格的科技和運營保障措施，對濫用系統采取零容忍政策。員工不會獲取到使用者身份，任何信息都會被高度保密，並且會以“限制訪問、服務加密和審計控制環境的方式”進行保護。

亞馬遜Alexa應用部門科學家Ruhi Sarikaya此前在雜誌《Scientific American》中發表文章稱，大規模機器學習的目標是減少大量人工打標簽糾正錯誤的過程。“在最近的AI研究中，監督學習佔據主導地位。但今天，商業人工智能系統產生的客戶互動，遠遠超過我們開始手工打標簽的數量。”要想延續商業人工智能迄今所帶來的迅猛進步，唯一的方法就是將我們自己重新定位為半監督、弱監督和非監督學習。“我們的系統需要學習如何自我提升。”

然而，到目前為止，亞馬遜需要更多的擁有人類語言處理能力和文化的人類來處理Alexa互動，並理解它們。這種令人不安的現實意味著，有些遠在印度和羅馬尼亞的人正在聆聽你在客廳、臥室、甚至浴室裡和一個人工智能對話。至少在亞馬遜看來，這就是AI提供便利所要付出的代價。

細思極恐 有人正在聆聽你和亞馬遜人工助手的對話……

細思極恐有人正在聆聽你和亞馬遜人工助手的對話……