中國AI軍團爭霸機器閱讀理解大賽，搜狗創下全球新紀錄

邊策發自凹非寺

量子位報導 | 公眾號 QbitAI

全球AI競技場，現在全方位成為中國公司實力展示台。

這不，2018年迭代上線的CoQA機器閱讀理解大賽，一番你爭我趕之後，最終還是形成了中國AI力量爭霸之勢。

而且更可喜的是，就在最近，搜狗AI團隊脫穎而出，不僅高分奪冠，而且全面刷新CoQA所有評價指標。

不得不說：威武~

搜狗奪冠CoQA

此次奪冠的搜狗團隊來自搜狗搜索AI研究團隊，模型則是BERT + Answer Verification(單一模型)。

從9月份發布到現在，CoQA大賽已經吸引了國內外眾多知名研究機構和高校，包括微軟、訊飛、清華、複旦，斯坦福等等，競爭異常激烈。

在不到一個月時間內，CoQA挑戰賽榜首已經3次易主。

1月3日，搜狗以82.8%的成績穩穩佔據榜首位置，全面刷新CoQA所有評價指標。

並且，搜狗的算法是CoQA的領域外（out-of-domain）數據集上表現首個超過80％的模型。

CoQA之難

CoQA大賽究竟有何特別之處？

如果非NLP從業者，對於CoQA可能會有些許陌生。你可能會好奇，不到半年的時間裡，為何各大公司、高校都在努力攻克CoQA？

這就要從去年自然語言處理（NLP）領域的快速發展談起。

2018年是NLP取得重大進展的一年，BERT出現，橫掃各大NLP測試，刷新了SQuAD成績。

除了算法以外，NLP領域的一項重要應用問答系統（QA）也在這一年悄然改變。

SQuAD測試已經逐漸跟不上智能問答系統的發展，行業急需一個更具有挑戰性、更智能的QA挑戰。取而代之的是今年8月上線的CoQA。

如果說SQuAD像是做英文閱讀理解，那CoQA更像是模擬真實的人類對話。

CoQA包含從8000多個對話中收集的127,000多個問答。每個對話都是通過將兩個人配對，以問答對話聊天形式收集的。

CoQA的獨特之處在於：

1、問題不是SQuAD的一問一答，而是多輪對話形式的；2、答案可以是自由格式的文本；3、每個答案還附有段落中的證據子序列；4、測試集包含七個不同領域的資料。

QA多輪對話更類似於人類，應用前景廣闊。比如去年谷歌發布的AI打電話，甚至通過圖靈測試，就是QA多輪對話的一個落地場景。

另外，比賽官方提供的訓練數據來自5個領域的文章，而測試集還多出兩個其他領域（reddit論壇、science網站）的文章，更考驗NLP“舉一反三”的能力。

比賽榜單包含兩個部分，領域內（In-domain）是指測試集“考題”與訓練集來自相同領域，領域外（out-of-domain）是測試集“考題”來自訓練集之外的2個領域，測試的是模型推理能力。

搜狗這兩個測試的得分分別是83.8和80.2，都是排名第一，並且兩部分分差在所有參賽團隊中最小，體現了搜狗模型在閱讀理解上的通用泛化能力。

如何評價搜狗模型？

沒有隨隨便便的成功。

從去年BERT模型橫空出世以來，搜狗就開始思索將其與自家的研究成果結合起來。

本次參加CoQA比賽的模型就是BERT與Answer Verification的結合。搜狗創新性地在BERT的輸出層中加入推理判斷網絡，用於解決原文中無法直接找到答案的情形。

這個推理判斷網絡就是搜狗採用的有證據支撐的“答案抽取網絡”（Answer Verification）。它能應用注意力（Attention）和自注意力（Self-attention）機制，將對話問題和材料進行整體編碼，推理出答案。

搜狗認為人在閱讀理解的過程中，尋找支撐答案的文本和選擇精準答案的過程是相互交織進行的，因此“答案抽取網絡”也效仿人類的思考模式，使得答案抽取有更強的上下文支撐。

為了讓AI對當前輪對話問題有更好地理解，搜狗模型將歷史對話的問題和答案同當前輪問題一起輸入到網絡中，從而提升在多輪對話中的表現。

同時，搜狗在訓練中對BERT的預訓練參數進行了微調。

實驗結果表明，搜狗團隊的上述設計策略顯著提升了在CoQA測試上的效果。

這種算法能綜合考慮答案抽取和證據對答案的支撐作用，同時融入對話歷史的問題和答案資訊，極大提升了對當前問題的理解和回答的準確性。其有兩大亮點：

1) 有證據支撐的答案選擇：

人類做閱讀理解是一個找回答了問題的句子和提煉精確答案同時進行的過程，搜狗的算法創新性的模擬了這一過程，做到了有證據文本支撐的答案選擇。

2) 推理類答案的理：

CoQA比賽的問題中，有相當部分的問題是原文中無直接答案，需要通過推理才能得出。搜狗的算法將推理轉換成分類問題，通過問題-材料的整體編碼，找到推理答案。

前沿技術已落地

當然，或許你也好奇，搜狗拿下這樣的“冠軍”有何用？

搜狗方面回答，從去年9月決定參賽到稱霸榜首，搜狗投入大量時間和人力物力參加CoQA大賽，並非只看重“跑分”。

因為搜狗一直堅持探索以語言為核心的人工智能戰略，AI問答之於搜狗的重要意義，不言自明。

而且以技術和產品知名的搜狗，已將前沿技術成果在產品中落地。

搜狗搜索的智能回答智能音箱

比如去年大熱的智能音箱，就是問答服務的一個天然應用場景，BAT等公司都在布局。去年華為也殺入戰場，而背後正是有搜狗問答技術的支持。

然而世面上不少智能音箱產品，只能用在簡單問答的雞肋場景。

華為AI音箱，在各種方案PK後，選擇了搭載搜狗的智能問答服務。用戶只需用自然語言提問，系統即可“聽懂”用戶的話，並直接“回復”用戶想要的資訊。讓智能音箱真正做到高效便捷，而不是讓人去遷就產品。

這就是前沿技術+快速產品落地能力的牛刀小試。

專業搜索

此外，更重要的是搜狗核心業務的進一步強化。

搜索是搜狗的起點，王小川相信搜索的未來是問答，而機器閱讀理解是現今問答技術發展的核心之一。

將AI問答用在專業領域的搜索會擦出怎樣的火花？

目前搜狗在法律、醫療領域做出了嘗試。

在法律領域，搜狗律師問答機器人具備邏輯分析和推理能力，能夠基於事實和法律訴求，給用戶提出可能的判決結果、法律建議或相似案例等豐富的谘詢結果，充當人類的法律小顧問。

在醫學領域，搜狗搜索智能分診功能，首創引入了基於人工智能技術的智能診斷助手，模擬醫生與病人對話的模式與用戶進行病情溝通，並提供可能的疾病範圍，供用戶參考。

全球視角看未來

如上文所述，除了搜狗以外，參加CoQA的還有微軟、艾倫研究院（AI2）、斯坦福大學、清華大學COAI實驗室、北京大學、複旦大學、北京郵電大學、中國科技大學等知名頂級公司和機構。

全球科技公司都在研發前沿的問答技術。去年谷歌的AI打電話訂餐轟動全球，標誌著AI已經開始攻克圖靈測試。

刷榜奪冠CoQA大賽，對搜狗來說只是技術實力證明的牛刀小試，也是搜狗搜索團隊在前沿技術研究、應用和產品落地方面的答卷。

智能問答領域的頭雁爭奪，未來還會更激烈。

CoQA大賽是起點，但也是目前該領域全球範圍內最權威的參照之一。

搜狗奪冠，展示的不僅是AI領域頭號玩家的潛力和能力，也是對中國AI實力的又一次介紹。

在全球科技進程中，這是大歷史性的一刻。

—完—

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字“專業群”，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復“招聘”兩個字。

喜歡就點「好看」吧 !