每日最新頭條.有趣資訊

蘋果Siri翻譯究竟出了啥Bug?牛和“牛”傻傻分不清楚

作為蘋果設備的一款標配智能語音助手,Siri除了會講笑話,還會B-box,教你撩妹,卻也常常語出驚人。「調戲」Siri已經成為用戶日常。

近日,Siri卻因為翻譯功能Bug背上「侮X」的名號。從機器翻譯的技術角度來看,這事蘋果多少有些「委屈」。

事出有因。

昨日,細心網友發現 iPhone 在涉及「華為牛bi」、「小米牛bi」等關鍵詞翻譯至英文時,會出現侮辱性詞匯「bitch」;但翻譯「蘋果牛bi」關鍵詞句時卻能顯示正確英文結果。

在iPhone、iPad上使用Siri語音助手均會出現近似翻譯結果,結果對比明顯且複現率高,很快這個消息在社交媒體上炸開了鍋。

截止發稿前,蘋果Siri的翻譯功能已經部分從伺服器端取消涉及「牛bi」的詞條。直接詢問「……英文怎麽說」將反饋「這已經超出我的能力範圍」,但在調出翻譯功能界面後,仍能進行相關翻譯結果呈現。

不少網友和自媒體將其解讀為「侮X」的意圖,但從機器翻譯和機器學習的技術角度來看,這個帽子扣得有點「委屈」。

1 傻傻分不清楚

昨日網友的翻譯測試結果

為了進一步驗證Siri的翻譯功能Bug,我們進行了多輪測試,參考今日早上9點到10點時間段的測試結果。

目前,蘋果Siri已經停止部分翻譯功能,直接詢問Siri「……英文怎麽說」時,系統將反饋「已經超出我的能力範圍」,但在調出翻譯功能後,仍能看到相關翻譯結果呈現。

翻譯結果1

翻譯結果2

翻譯結果3

翻譯結果4

這裡,小米直接翻譯成「Mimi」,實在令人費解。

可以看到在多輪翻譯測試中,Siri對於「牛bi」的理解和翻譯結果很不穩定,有將「牛bi」翻譯成了「bitch」、也有翻譯成「so good」、「awesome」、「bullish」,顯然後者翻譯更為貼切中文中「牛X」的含義。

但是,以上翻譯結果還不至於將Siri翻譯結果套用「陰謀論」,說不通的地方在於——見過罵自己CEO的手機嗎?

稍微改變中文語法,翻譯結果又恢復了正常。

在中文,「牛bi」也被寫作牛B,多指「厲害」、「強」的意思,有時會簡稱為「牛」。

在維基百科(英文版)中,「Bitch」作為名詞共有11種意思,均涉及包含粗俗、冒犯、進攻性質的負面詞匯含義,唯一第九種是中性含義,指代紙牌遊戲中的黑桃皇后。

為什麽Siri能翻譯出「bitch」這種字眼?

很大程度在於,Siri在面對不能理解的句型語法時將采取直譯方式。這個時候,中文語句中的「bi」就成了主系表句型中的表語。對此,我們同樣進行了測試驗證。

將翻譯有問題的句子去掉中文中的「bi」,比如「華為真牛」,Siri通常會翻譯成「XXX is a real cow」、「 is a real ox」。這也側面論證了Siri翻譯背後所採用的「看見不懂就直譯」的路徑存在。

2 機器翻譯背後的技術解密

2011年10月,Siri隨著 iPhone 4S 的發布問世,成為iPhone設備的標配功能,如今AI語音助手也已經成為智能手機上的標配。

就目前技術發展階段來看,手機語音助手互動原理在於,設備根據采集的關鍵詞,來觸發底層回答的指令。伺服器端有編輯好的相應關鍵字和詞條,當用戶通過手機等設備發問時,算法搜索最為相關詞條並呈現答案,可能為一個或多個。翻譯問答的互動方式同理。

雖然在模型的訓練階段,已經出現神經機器翻譯等更人工智能化的理解方式,但在推理階段,AI語音助手尚不能達到完全理解人類「語言」的水準。

具體來看看機器翻譯技術本身。

機器翻譯,又稱自動翻譯,簡言之即是借機器之力自動地將一種自然語言文本(源語言)翻譯成另一種自然語言文本(目標語言)。

採用機器做翻譯的思想最早由 Warren Weaver 於 1949 年提出。大半個世紀以來,機器翻譯技術先後了 基於規則的機器翻譯(RBMT)、統計機器翻譯(SMT)、神經機器翻譯(NMT)三次重要的方法演化。

神經機器翻譯,Neural Machine Translation, 簡稱 NMT, 於2014年開始興起,逐漸應用卷積神經網絡(CNN),遞歸神經網絡(RNN),注意力機制等技術。

神經機器翻譯的優勢在於長句子、甚至段落的翻譯能力,閱讀起來上下文連貫程度接近人翻。目前,神經機器翻譯已經成為機器學習技術領域的主流。

2016年開始,神經機器翻譯已基本全面取代傳統的統計機器翻譯(SMT),Google、微軟、百度、搜狗等已相繼上線神經機器翻譯系統。

在英文中,單詞在一個語境下通常隻代表一個意思;而在中文裡,一個字放在主、謂、定等不同的位置和語境中,代表的意思就有很多可能性,這也是中文博大精深之所在。

圖片源於網絡

在本文開頭描述的情況中,Siri因為根本沒有理解關鍵詞的意思,所以採用了直譯,即通過拆分成「單字」的模式尋找匹配詞條,「牛」直接翻譯成ox、cow(另一個詞同理)。不得不說,已經八歲的Siri對於中文語法的理解仍然處於比較「低端」水準。

當然,在中英翻譯上栽跟頭的又何止Siri這種「外來客」。前段時間,微信自帶的文字翻譯功能也是十分任性。

以及再一次掀起清華北大之爭的「神翻譯」。

隨後,微信團隊便部分下線了翻譯功能。騰訊微信團隊微在微博上回應稱,翻譯引擎在翻譯一些沒有進行過訓練的非正式英文詞匯時出現誤翻,導致部分語句翻譯出現問題。

這也充分說明了基於人工智能的技術手段,在算法和模型足夠領先之外,語料,尤其是平行語料的訓練仍是高質量翻譯的核心。

所謂,「平行語料「即指的是源語音與目標語言一一對應的關係,比如,「I love you」 = 我愛你」。而在微信的案例中,很有可能就是爬取並採用了網上已經存在的大量「caixukun=好」、 「caixukun=傻蛋」的語料。

對於Siri等「外來客」而言,中英互譯效果不盡如意的很一大部分原因在於,我國用戶對其調用率和使用率不高,本土化語料的訓練量不夠大,所以在面對一些本土化的東西,顯得有些「智障」。這也就能解釋前文提到的例子,由於對美國之外的品牌不夠熟悉,Siri將「小米」 翻譯成「Mimi」。

「主要是訓練數據的覆蓋,如果覆蓋不好就要針對特定用語進行修正」,Facebook前機器翻譯專家向機器之心表示,「Siri出現的這個情況應該不是有意的,很可能是他們現有的模型對於『牛bi』都翻譯不好,但對於『蘋果』和其有關的說法做了bad case修複」。

一般來說,訓練語料主要來自三個方面,一是各種英漢辭典標準化語庫來源;二是互聯網上的爬蟲抓取,從全網大量的數據裡,抓取到所需要的高質量平行語料。

第三,則是各家公司能夠「各取所需」的優勢渠道,比如騰訊有大量基於微信平台有大量社交的語料,阿里巴巴有大量基於電商平台有大量交易的語料,或者其他公司通過付費購買特定場景語料。

那麽新的問題來了,Siri 在中國市場的翻譯功能,會是誰提供的語料和API呢?

獲得更多的PTT最新消息
按讚加入粉絲團