中國人工智能語言新算法悄然擊敗微軟谷歌，引美媒關注

據《麻省理工學院科技評論》網站（www.technologyreview.com）2019年12月26日消息，本月初，中國科技巨頭百度在一場人工智能領域的競爭中悄然擊敗了微軟和谷歌。百度 AI算法ERNIE在通用語言理解評估測試（General Language Understanding Evaluation，GLUE）上領先其競爭對手。

GLUE是人工智能（AI）系統理解人類語言的一個被廣泛接受的標準。它由九種不同的測試組成，這些測試包括在句子中挑選人名和組織名以及當有多個潛在先行詞時，找出像“It”這樣的代詞指的是什麽。因此，在GLUE上得分很高的語言模型可以勝任處理不同的閱讀理解任務。在滿分100分中，此前 GLUE 測試的平均分為 87。百度現在是第一個憑借其模型ERNIE獲得超過90分的團隊。

GLUE在公開排行榜上的排名正在不斷變化，雖然另外一支團隊很可能很快就會超越百度。但值得注意的是，百度的成就展示了AI研究如何從眾多貢獻者中受益。百度的研究人員不得不針對中文開發一種專門技術來構建ERNIE知識增強語義表達模型。碰巧的是，該的技術也能使人工智能更好地理解英語。

在雙向預訓練轉換器（BERT）於2018年末創建之前，自然語言模型並不是那麽好。之前的自然語言模型擅長預測句子中的下一個單詞，因此非常適用於自動完成功能。只是即使是一小段文字，他們也無法訓練具有任何思路。這是因為它們不理解含義，例如“它”一詞可能指的是什麽。但是BERT改變了這一點。先前的模型學會了僅通過考慮單詞之前或之後出現的上下文來預測和解釋單詞的含義，而不能同時考慮兩者。換句話說，它們是單向工作的。

相比之下，BERT模型一次可以同時考慮單詞前後的上下文，使其雙向。它使用稱為“掩碼”的技術來執行此操作。在給定的文本段落中，BERT隨機隱藏15％的單詞，然後嘗試從其余單詞中進行預測。這使得它可以做出更準確的預測，因為它具有兩倍的線索可以利用。例如，在“男子去___購買牛奶”一句中，句子的開頭和結尾都提示了缺失的單詞。 ___是您可以去的地方，也是可以購買牛奶的地方。

使用掩碼是對自然語言任務進行重大改進背後的核心創新之一，並且是諸如OpenAI GPT-2之類的模型能夠在不偏離中心主題的情況下寫出極具說服力的散文的部分原因。

當百度研究人員開始開發自己的語言模型時，他們希望以掩碼技術為基礎。但是他們意識到他們需要進行調整以適應中文。在英語中，單詞充當語義單元，這意味著完全脫離上下文的單詞仍然包含語義。然而中文漢字卻不一樣。雖然某些漢字確實具有內在含義，例如火、水或木，但大多數漢字只有與其他漢字組合在一起才可以更明確含義。例如，漢字靈可以表示聰明（機靈）或靈魂（靈魂）。專有名詞中的漢字，例如，波士頓或美國，一旦分開講就不是同一件事了。

因此，研究人員在新版本的掩碼上對ERNIE進行了訓練，該掩碼可隱藏多個字元串而不是單個字元。他們還訓練它區分有意義的和隨機的字元串，這樣可以相應地做出正確的字元組合。結果，ERNIE更好地掌握了漢字是如何編碼信息的，也更準確地預測了缺失的部分。事實證明，這對於翻譯和從文本文檔中進行信息檢索等應用非常有用。

研究人員很快發現這種方法實際上也適用於英語。儘管英語不如中文會出現頻繁的組合表達意義，但英語具有類似的單詞字元串，這些單個單詞表示的含義與它們組合在一起表達的截然不同。像“哈利·波特”這樣的專有名詞和像“相貌品行酷似父母”這樣的表達就不能通過將它們分離成單獨的單詞來進行有意義的解析。

最新版本的ERNIE還使用了其他幾種訓練技術。例如它能考慮句子的順序和它們之間的間隔距離，來理解一個段落的邏輯發展。然而，最重要的是，它使用了一種叫做持續訓練的方法，這種方法可以讓它在不忘記以前學到的東西的情況下，對新數據和新任務進行訓練。這使得它能夠在盡可能減少人為干擾的情況下更好地執行各種任務。

百度正在積極使用ERNIE模型為用戶提供更適用的搜索結果，刪除新聞源中的重複報導，提高人工智能助理小度準確響應請求的能力。百度還在一篇論文中描述了ERNIE的最新架構，該論文將在明年的人工智能促發展協會會議上發表。就像他們的團隊的創新建立在谷歌的BERT模型上一樣，研究人員希望其他團隊也能從他們研發改進ERNIE的模型中受益。

百度研究的首席架構師田浩說：“當我們第一次開始這項工作的時候，我們就特別考慮中文的某些特點，但我們很快發現，它的適用範圍遠不止這些。

ERNIE世界性成果引發的國際媒體關注，是中國自研技術領先業界的一個縮影。未來，將有越來越多ERNIE這樣的中國科技、百度這樣的中國企業，持續輸出中國AI的戰鬥力。

（作者：寧浦版權作品未經許可禁止轉載）