2018，一文看盡AI發展真相（下）

新智元報導

編輯：文強，大明，三石

【新智元導讀】2018年的最後一天，回顧 AI 技術發展，縱覽一年 AI 事件。新智元創始人兼CEO楊靜女士寄語：2019跨年之際，新智元繼續與您一起探索不一樣的天際線和地平線；穿越時空隧道，創造奇跡，突破 AI 極限！新智元感恩每一位 AI 智庫專家、合作夥伴和人工智能產業鏈用戶！預祝2019新年快樂！

再過幾個小時，我們就將進入2019年。

新智元從2015年9月成立至今，一直聚焦AI行業，追蹤業界、技術、學界的前沿發展。2018年12月，新智元微信公眾號AI全產業鏈用戶達35萬。

上周，新智元發布了

《2018，一文看盡 AI 發展真相》

的上篇，在 state of the art.ai 網站收集的同行評議論文基礎上，對目前為止 AI 在電腦視覺 (CV) 和自然語言處理 (NLP) 方面的 state-of-art 做了回顧。

在下篇當中，我們將介紹迄今 AI 在遊戲、知識圖譜和知識庫、語音以及程式歸納和程式綜合 (Program Induction & Program Synthesis) 方面取得的最優成果。最後，按照時間順序，以全年AI事件縱覽收尾。

遊戲：AI攻克最難雅利達遊戲，AlphaGo更強大！

說到“遊戲”，自然是強化學習，有經典的雅達利 (Atari) 遊戲和以國際象棋、圍棋為代表的抽象策略遊戲。

雅利達遊戲：《蒙特祖瑪的復仇》超越人類專家平均水準

雅達利遊戲種類繁多，但基本都已被 AI 攻克。除了幾個特別難的，比如：

《蒙特祖瑪的復仇》要求玩家找到金字塔裡的寶藏，中途有各種陷阱和機構

《陷阱》(PITFALL!) 玩家需要穿越叢林，克服眾多危險，在20分鐘內找到32個寶藏

《私人偵探》(PRIVATE EYE) 玩家需要追蹤線索，追回被犯罪分子偷走的物品，並將罪犯逮捕歸案

上述遊戲對人類而言都是不小的挑戰，在 AI 界則被稱為“強化學習 AI 噩夢或試金石”。在這種稀疏環境獎勵遊戲中，使用基礎的貪婪算法幾乎無法過關，因為在分離獎勵的幀數中，AI 可能的動作軌跡呈指數級增長。例如，在《蒙特祖瑪的復仇》中，獲得第一個環境獎勵大約需要移動100步，也就是10018個可能的動作序列。即使隨機遇到獎勵，如果這個信號在特別長的時間範圍記憶體在，那麽強化學習算法也難以穩定地學習。

2018年5月，DeepMind 宣布讓 AI 在《蒙特祖瑪的復仇》、《陷阱》和《私人偵探》這三大超難雅利達遊戲中首次令人信服地超越人類水準，方法是讓 AI 觀看人類玩這些遊戲的 YouTube 影片。

DeepMind 表示，他們提出了全新的自監督目標，讓智能體能從影片像素中學習域不變表征，還描述了一種少數據模仿 (one-shot imitation) 機制，在整個空間嵌入檢查點來指導智能體進行探索。“將這些方法與標準的 IMPALA 智能體結合，我們展示了首個在《蒙特祖瑪的復仇》《陷阱》以及《私人偵探》上具有人類水準的 AI。”

雅利達遊戲《蒙特祖瑪的復仇》，因其稀疏獎勵環境，被譽為最難雅利達遊戲之一，2018年首次被AI 玩過超越人類水準。

DeepMind 的結果發表幾周後，OpenAI 也發布博文，描述了另一種訓練智能體完成蒙特祖瑪復仇第一關的方法。這種方法也依賴於人類的演示，但與 DeepMind 的稍有不同。這裡有詳盡的技術分析。

2018年11月底，Uber 在官方部落格上介紹了他們提出的 Go-Explore 算法，不僅輕鬆通關蒙特祖瑪，而且玩到了159 級，獲得超過 200 萬分，平均得分超過 40 萬分！

Go-Explore無需人類演示，智能體從領域知識(domain knowledge)中學習，凸顯了算法利用最小先驗知識的能力。即使沒有任何領域知識，Go-Explore 也在蒙特祖瑪中得到超過 3.5 萬分，是當時最優水準的三倍多。

無領域知識的 Go-Explore 與其他強化學習算法在《蒙特祖瑪的復仇》中比較。圖中的每一點都代表了不同算法的得分。Go-Explore 平均得分為 35410，是之前最好成績的 11347分的 3倍多，略高於人類專家平均水準的 34900分！

策略遊戲：AlphaZero自弈勝率大漲16.5%

2018年12月7日，DeepMind的最強棋類算法 AlphaZero 作為 Science 封面論文發表，正式引入學界和公眾的視野。去年底，AlphaZero 橫空出世，將日本將棋、國際象棋和圍棋統統拿下：從零開始訓練，2小時擊敗最強將棋AI，4小時擊敗最強國際象棋AI，8小時擊敗最強圍棋AI (李世石版AlphaGo)。

就在幾天前，DeepMind 又在 Arxiv 貼出文章，用貝葉斯優化將人工調參改為自動，AlphaGo自我對弈的勝率從50%漲到66.5%，進一步刷新了AI圍棋實力，而其見解將有助於開發具有MCTS的新版本的AI對弈智能體。

語音：中文語音識別準確率達到新高度

語音識別2017年8月底，微軟語音對話研究小組在Switchboard語音識別任務中，將錯誤率從之前的 5.9% 再一次降低到 5.1%，達到當時的最先進水準。微軟全球技術Fellow、語音對話研究負責人黃學東在微軟官方部落格上稱，這意味著微軟創造了一種技術，可以在對話中識別詞語，且與人類專業的速記員水準相當。

2018年，根據一篇發表在Arixv上的論文，The CAPIO 2017 Conversational Speech Recognition System，Kyu J. Han 等人宣布使用 Dense-LSTM 方法，在行業標準的NIST 2000 Hub5英語評估集上實現當前最佳性能。作者在論文中指出，他們還提出了一種聲學模型自適應方案，通過在三個不同電話機上訓練的5個系統上的RNN-LM重新校正和點陣組合，其CAPIO 2017語音識別系統分別在語音數據集 Switchboard 和 CallHome 上獲得了5.0％和9.1％的詞錯率，這兩者都是迄今英語語音識別方面文獻匯報的最好的成績。

在中文語音識別方面則出現了一個令人比較意外的結果，AI初創公司依圖科技在年底宣布，他們在全球最大的中文開源數據庫AISHELL-2中，依圖短語音聽寫的字錯率（CER）達到3.71%，相比原業內領先者提升約20%，大幅刷新現有紀錄。

AISHELL-2是AISHELL Foundation和希爾貝殼創建的開源數據庫，含有1000小時中文語音數據，由1991名來自中國不同口音區域的說話者參與錄製，經過專業語音校對人員轉寫標注，通過了嚴格品質檢驗，數據庫文本正確率在96%以上，錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。

揚聲器測量(Speaker Diarization)

語音領域頂會 ICASSP 2018，谷歌和CMU團隊發表論文，匯報了他們在揚聲器測量 (Speaker Diarization) 方面的進展。具體說，作者將基於LSTM的d矢量音頻嵌入與最近在非參數聚類中的工作相結合，從而獲得了最先進的揚聲器二值化系統。

揚聲器測量是指根據說話者身份將輸入音頻流劃分為同類段的過程。它可以通過將音頻流結構化為揚聲器轉彎來增強自動語音轉錄的可讀性，並且當與揚聲器識別系統一起使用時，通過提供說話者的真實身份。

在三個標準公共數據集 (見下) 評估結果表明，基於d矢量的二值化系統與傳統的基於i-vector的系統相比具有明顯的優勢。在使用語音搜索領域外數據進行訓練的情況下，模型在NIST SRE 2000 CALLHOME上實現了12.0％的錯誤率。

知識圖譜和知識庫

聚類

在聚類 (Clustering) 方面，根據 stateoftheart 網站，AI 做到最好的成績是 Mukherjee 等人在 2017 年 NeurIPS 論文《論網絡數據的聚類》中得到的。作者將網絡概括為一個高維特徵向量，然後對這些特徵向量進行聚類。他們提出了兩種方法，分別適用於有節點的網絡和沒有節點的網絡。

在一系列結果中，錯誤率最低為 0 的情況下時間 25 秒，時間最短 2.7 秒的情況下錯誤率 0.1。

圖 (Graph) 生成

至於圖 (Graph) 生成，則是 IBM 研究院的 Tengfei Ma、Jie Chen 和 Cao Xiao 在今年 NeurIPS 發表的論文Constrained Generation of Semantically Valid Graphs via Regularizing Variational Autoencoders中，他們提出了一個變分自編碼器的正則化框架，作為實現語義有效性的第一步。然後，專注於圖的矩陣表示，並規範解碼器的輸出分布，以鼓勵滿足有效性約束。實驗結果證實，與此前文獻報導的其他方法相比，我們的方法在采樣有效圖的準確率要高得多。

具體說，他們所提出的方法，在 QM9 與 ZINC 兩大數據集上，分別與此前最好結果相比，都得到了顯著提升。

鏈路預測

今年的ICLR，Rajarshi Das 等人提出了一種名叫 Minerva 的算法，有效解決了回答關係已知但只有一個實體的問題。作者提出了一種神經強化學習方法，能夠學習如何根據輸入的查詢條件在圖中導航，從而找到預測路徑。這種方法在幾個數據集上獲得了最先進的結果，明顯優於先前的方法。

程式歸納與程式綜合

在發表於今年 ICLR 的一項工作中，佐治亞大學和微軟研究院的研究人員聯合提出了一種叫“神經引導演繹搜索”（NGDS）的方法，這是一種混合程式綜合技術，結合了符號邏輯和統計模型的優點。因此，NGDS 能通過構造生成滿足所提供規範的程式，並且很好地概括了類似於數據驅動系統的看不見的樣本。

論文作者提出的這一的技術，有效地利用演繹搜索框架，將神經元件的學習問題簡化為簡單的監督學習場景。此外，這可用現實世界數據，又可以利用強大的遞歸神經網絡編碼器。與最先進的系統相比，通過綜合精確的程式，整體速度提高了12倍，準確率68.5%。

當然，對於程式綜合與程式生成，在條件程式生成領域，還必須提一下今年的EMNLP，Murali 等人提出的一個模型，結合深度學習和程式綜合技術，能夠自動學習將簡單的手繪圖轉換為用 \LaTeX 圖形程式。

論文作者學習了一個卷積神經網絡，後者能提出解釋圖的合理繪圖基元，可以糾正深層網絡所產生的錯誤，通過使用類似的高級幾何結構來測量圖形之間的相似性，並推斷出圖程式。總之，這是朝向智能體從感知輸入中歸納出有用的、人類可讀的程式又一進步。

2018 年人工智能大事件回顧

看完技術在聚焦產業。儘管AI技術為谷歌和Facebook這樣的大公司的盈利頗豐，但今年，這些公司已經越來越意識到AI技術的一些陷阱：比如AI很容易陷入偏見，缺乏固定的技術道德準則，而且，過早地將AI技術引入現實世界可能是浪費時間。

今年關於AI技術應用的爭議中，有很大一部分是由Uber自駕車事故致行人死亡事件引起的。此外，人工智能技術可能存在濫用的報導也引發了新的關注。

以下是新智元呈現的2018年AI大事件年度盤點，其中一些事件凸顯出當前AI技術中存在的重要問題：

1月中國公司正在佔領CES，官方數據顯示，單是名字中含有“深圳”的參展公司就有482家，佔了將近10%，算上其他來自中國的公司，2018年的CES已經成為“中國消費電子展”。

教育部：人工智能進入全國高中新課標，2018秋季學期執行

2月

美國國會舉行關於AI技術的聽證會，發言人警告稱，AI領域長期存在偏見，特別是對有色人種的偏見。工業界和學術界專家於2月的一份報告中強調了AI技術在數字、物理和政治領域可能被武器化，並存在被濫用的多種方式。

研究人員Joy Buolamwini和Timnit Gebru發表論文，顯示AI面部識別的準確性在白人和有色人種間存在巨大差異。谷歌重拳開放Cloud TPU，GPU最強對手上線

3月

4月

Facebook20 億用戶數據均可能洩露，祖克柏仍不打算辭職

5月谷歌首次出現集體請辭，抗議軍方合作項目，300多名學者發聯名信

提升AI公平性的工具開始開發

Facebook發布用於識別數據偏見的工具，並開始測試相關算法

6月

7月

8月Open AI完虐Dota2準職業玩家，推塔如割草六項世界第一！余承東發布7納米“超級恐怖”芯片，麒麟980讓世界顫抖

亞馬遜Alexa和微軟Cortana完成整合，挑戰蘋果Siri

9月

更多旨在提升AI公平性的工具面世，美國國會進一步關注AI公平性問題

Google和IBM陸續發布了用於識別數據偏見的工具。

有國會議員致函FBI和平等就業機會委員會等聯邦機構，詢問它們是否制定了旨在緩解AI技術偏見的工具或政策。

阿里成立獨立芯片公司——平頭哥

AI world 2018 世界人工智能峰會在北京舉行

10月

亞馬遜打擊有偏見AI的報導。路透社報導稱，亞馬遜正在測試一種對女性存在偏見的AI招聘工具。NLP歷史突破！谷歌BERT模型狂破11項紀錄，全面超越人類MIT宣布10億美元成立全新計算與人工智能學院，重塑70年來結構

11月

新聞聯播8分鐘：中央強調AI要有“頭雁”效應，要勇闖無人區北大建立人工智能新校區，規劃用地1025畝谷歌無人車老大承認遙遙無期，全自動駕駛寒冬將至？

12月

微軟發表官方博文，推動對面部識別算法的偏見進行監管。Science：AlphaZero達成終極進化體，史上最強棋類AI降臨

專家表示，AI背後社會科學基礎並不像宣傳的那樣扎實，並提出了監管AI技術的意見。

谷歌翻譯聲稱，已在翻譯中修複可能存在偏見的性別代詞

歐盟公布AI技術道德準則草案，同時實現了AI投資200億美元的目標AI Index 2018公布世界最大AI創新應用園揭幕：首鋼老廠區將變身新北京“AI World”

總體來看，2018年AI整個行業在中美及世界其他地區仍然呈現蓬勃發展的態勢，但各國立法機構和行業團體對“奇點降臨”和“終結者末日”等噱頭話題的關注明顯降溫，而更多關注AI技術的貿然落地可能給政府和私營部門帶來的潛在危害。

由於偏見或缺乏道德上的頂層設計，公眾需要對AI的潛在缺點有更深入的了解，在這種思路的指引下，將AI研究快速轉化為AI產品的路線，可能會在未來遇到更大的阻力。

在新智元年終微信群訪談“獨見”中，小 i 機器人CEO朱頻頻表示，今年最大的 AI 產業事件是11月19日，美國商務部工業與安全局提出了一份針對關鍵技術和相關產品的出口管制框架方案，檔案列出了14個考慮進行管制的領域，包括生物技術、人工智能、數據分析、量子計算、機器人、腦機接口等前沿技術。

“無論是長期的積極影響還是短期的負面影響，[對中國AI] 影響都是深遠而巨大的。”朱頻頻說。

作為語音與自然語言處理領域的專家，朱頻頻認為谷歌BERT模型的推出是2018年最重要的學術新聞，“未來十年是NLP的黃金十年，即使不出現BERT模型，也會出現其他有效的NLP模型，”朱頻頻表示：“因為認識智能的發展是未來發展的趨勢。”

此外，情感計算和互動以及AIoT等方面的發展也值得期待。