認知推理：人工智能的下一個浪潮

圖片來源@視覺中國

文丨學術頭條

2020 年 3 月 25 日，智源研究院學術副院長、清華大學計算機系唐傑教授作客首屆中科院“先導杯”並行計算應用大獎賽啟動儀式，並為大家帶來《人工智能下一個十年》的主題報告。

唐老師從人工智能發展的歷史開始，深入分析人工智能近十年的發展，闡述了人工智能在感知方面取得的重要成果，尤其提到算法是這個感知時代最重要、最具代表性的內容，重點講解了 BERT、ALBERT、MoCo2 等取得快速進展的算法。最後說到下一波人工智能浪潮的興起，就是實現具有推理、可解釋性、認知的人工智能。

近年來，人工智能掀起了第三次浪潮，各個國家紛紛製訂了人工智能的發展戰略。

在我國，2016 年國務院發布《“十三五”國家科技創新規劃》，明確將人工智能作為發展新一代信息技術的主要方向；2017 年 7 月，國務院頒布《新一代人工智能發展規劃》；2017 年 10 月，人工智能被寫入“十九大報告”；今年，人工智能又作為“新基建”七大領域之一被明確列為重點發展領域。

美國於 2016 年先後發布了《為人工智能的未來做好準備》和《國家人工智能研究與發展戰略規劃》兩份報告，將人工智能提升到了國家戰略的層面；2018 年，白宮舉辦人工智能峰會，邀請業界、學術界和政府代表參與，並成立了人工智能特別委員會。日本、德國等多個國家也發布了相關的戰略、計劃，大力推進人工智能的發展。

在這個時代背景下，我們需要考慮人工智能未來十年會怎樣發展。首先，我們需要從人工智能的發展歷史中找到靈感。

AI的發展歷史

隨著克勞德·香農（Claude Shannon）在 1950 年提出計算機博弈，以及阿蘭·圖靈（Alan Turing）在 1954 年提出“圖靈測試”，人工智能這一概念開始進入人們的視野。

到了 20 世紀 60 年代，人工智能出現了第一波高潮，發展出了自然語言處理和人機對話技術。其中的代表性事件是丹尼爾·博布羅（Daniel Bobrow）在 1964 年發表的Natural language input for a computer problem solving system，以及約瑟夫·維森鮑姆 (Joseph Weizenbaum) 在 1966 年發表的 ELIZA—a computer program for the study of natural language communication between man and machine。

此外，還有一個重要的發展——知識庫。1968 年，愛德華·費根鮑姆 (Edward Feigenbaum)提出首個專家系統 DENDRAL 的時候對知識庫給出了初步的定義，其中隱含了第二波人工智能浪潮興起的契機。

之後，人工智能進入了一輪跨度將近十年的寒冬。

20 世紀 80 年代，人工智能進入了第二波浪潮，這其中代表性的工作是 1976 年蘭德爾·戴維斯 (Randall Davis)構建和維護的大規模的知識庫，1980 年德魯·麥狄蒙（Drew McDermott）和喬恩·多伊爾（Jon Doyle）提出的非單調邏輯，以及後期出現的機器人系統。

在 1980 年，漢斯·貝利納 (Hans Berliner)打造的計算機戰勝雙陸棋世界冠軍成為標誌性事件。隨後，基於行為的機器人學在羅德尼·布魯克斯（Rodney Brooks）的推動下快速發展，成為人工智能一個重要的發展分支。這其中格瑞·特索羅（Gerry Tesauro）等人打造的自我學習雙陸棋程序為後來的增強學習的發展奠定了基礎。

20 世紀 90 年代，AI 出現了兩個很重要的發展：第一項內容是蒂姆·伯納斯·李（Tim Berners-Lee）在 1998 年提出的語義互聯網路線圖，即以語義為基礎的知識網或知識表達。後來又出現了 OWL 語言和其他一些相關知識描述語言。第二項內容是傑弗裡·辛頓（Geoffrey Hinton）等人提出的深度學習，這標誌著第三次人工智能浪潮的興起。

在這次浪潮中，我們也看到很多企業參與其中，如塞巴斯蒂安·特龍（Sebastian Thrun）在谷歌主導推出的自動駕駛汽車，IBM 的沃森（Watson）於 2011 年在《危險邊緣》（Jeopardy）中獲得冠軍，蘋果在 2011 年推出的自然語言問答工具 Siri 等。

以上就是人工智能在 60 多年的發展歷史中取得的一些標誌性成果和技術。

AI近十年的發展

我們再深入分析 AI 近十年的發展，會看到一個重要的標誌：人工智能在感知方面取得重要成果。人工智能在語音識別、文本識別、視頻識別等方面已經超越了人類，我們可以說 AI 在感知方面已經逐漸接近人類的水準。從未來的趨勢來看，人工智能將會有一個從感知到認知逐步發展的基本趨勢，如下圖所示：

首先，我們來看看 AI 在感知方面做了哪些事情。在感知方面，AlphaGo、無人駕駛、文本和圖片之間的跨媒體計算等取得了快速發展。從宏觀來看，算法是這個感知時代最重要、最具代表性的內容。如果把最近十年的重要算法進行歸類，以深度學習為例進行展示的話，我們可以得到下圖所示的發展脈絡。

最上面淺紫色部分的內容是以前向網絡為代表的深度學習算法。

第二層淡綠色部分的內容表示一個以自學習、自編碼為代表的學習時代。

第三層橘色部分的內容代表自循環神經網絡（概率圖模型的發展）的算法。

最下麵粉色部分是以增強學習為代表的發展脈絡。

總體來講，我們可以把深度學習算法歸類為這四個脈絡，而這四個方面都取得了快速的進展。

如果再深入追溯最近幾年最重要的發展，會發現 BERT 是一個典型代表（想深入了解的讀者可以閱讀https://arxiv.org/pdf/1810.04805.pdf）。以 BERT 為代表的預訓練算法得到了快速的發展，基本上所有的算法都採用了預訓練+微調+ Fine tune 的方法，如下圖所示：

BERT 在 2018 年年底通過預訓練打敗了 NLP 上 11 個任務的經典算法；XLNet 在 2019 年提出來通過雙向網絡的方法超過了 BERT （想深入了解的讀者可以閱讀https://arxiv.org/pdf/1906.08237.pdf），如下圖所示：

再後來，ALBERT 又超過了 XLNet 和原始的 BERT（想深入了解的讀者可以閱讀https://arxiv.org/pdf/1909.11942.pdf）。整個 BERT 的發展引發了後續一系列的工作。

在其他方面，也湧現了很多有代表性的工作。如在 2018 年年底，NVIDIA通過預訓練模型實現高清視頻的自動生成。想要了解更多詳細信息的讀者可以閱讀https://arxiv.org/abs/1808.06601。

DeepMind 又把代表性的關聯關係生成到 graph_net 中，於是在網絡中可以實現一定的推理，其結構如下圖所示。想要了解更多信息的讀者可以閱讀https://arxiv.org/abs/1806.01261。

Facebook 的何愷明等人提出了以 contrastive learning 為基礎的 MoCo 及 MoCo2，在很多無監督學習（Unsupervised learning）的結果上超過了監督學習（Supervised learning），這是一個非常重要的進展，這也標誌著預訓練達到了一個新的高度。想要了解更多信息的讀者可以閱讀https://arxiv.org/abs/1911.05722。

傑弗裡·辛頓等人利用 SimCLR，通過簡化版的 contrastive learning 超過了 MoCo，後來 MoCo2 又宣稱超過了 SimCLR，想要了解更多信息的讀者可以閱讀https://arxiv.org/abs/2002.05709。

總體來看，在算法的時代，預訓練算法取得了快速的進展。那麽未來十年，AI 將何去何從？

展望未來十年

這裡，我想引用張鈸院士提出來的第三代人工智能的理論體系。

2015 年，張鈸院士提出第三代人工智能體系的雛形。

2017 年，DARPA 發起 XAI 項目，核心思想是從可解釋的機器學習系統、人機互動技術以及可解釋的心理學理論三個方面，全面開展可解釋性 AI 系統的研究。

2018 年底，正式公開提出第三代人工智能的理論框架體系，核心思想為：

建立可解釋、魯棒性的人工智能理論和方法。

發展安全、可靠、可信及可擴展的人工智能技術。

推動人工智能創新應用。

其中具體實施的路線圖如下：

與腦科學融合，發展腦啟發的人工智能理論。

數據與知識融合的人工智能理論與方法。

在這個思想框架下，我們做了一定的深入研究，我們稱之為認知圖譜。其核心概念是知識圖譜+認知推理+邏輯表達。

下面展開解釋一下。

知識圖譜大家很熟悉，是谷歌在 2012 年提出來的。這其中有兩個重磅的圖靈獎獲得者：一個是愛德華·費根鮑姆（1994 年圖靈獎得主），他在 20 世界 60 年代就提出來了知識庫的一些理論體系和框架；另一個是 1994 年蒂姆·伯納斯·李（2016 年圖靈獎得主、WWW 的創始人、語義網絡的創始人）。這裡面除了知識工程、專家系統，還有一個代表性的系統 CYC，CYC 可以說是歷史上持續時間最長的項目，從 1985 年開始，這個項目直到現在還一直在持續。

說完了知識圖譜，我們來說一下認知圖譜。

相信很多人對認知圖譜都比較陌生，這裡我們舉一個例子來說明一下。假如我們要解決一個問題“找到一個 2003 年在洛杉磯的 Quality 咖啡館拍過電影的導演（Who is the director of the 2003 film which has scenes in it filmed at The Quality Cafe in Los Angeles）”。如果是人來解決這個問題的話，可能是先追溯相關的文檔，如 Quality 咖啡館的介紹文檔，洛杉磯的維基百科頁面等，我們可能會從中找到相關的電影，如 Old School ，在這個電影的介紹文檔裡面，我們可能會進一步找到該電影的導演 Todd Phillips，經過比對電影的拍攝時間是 2003 年，最終確定答案是 Todd Phillips，具體流程如下圖所示：

當我們用傳統算法（如 BIDAF, BERT, XLNet）進行解決的時候，計算機可能只會找到局部的片段，仍然缺乏一個在知識層面上的推理能力，這是計算機很欠缺的。人在這方面具有優勢，而計算機缺乏類似的能力。

人在解決上述問題的過程中存在推理路徑、推理節點，並且能理解整個過程，而 AI 系統，特別是在當下的 AI 系統中，深度學習算法將大部分這類問題都看作是一個黑盒子，如下圖所示：

怎麽辦呢？對此，我們提出了“認知圖譜”這個概念，我們希望用知識表示、推理和決策，包括人的認知來解決上述問題，其基本結構如下：

這個基本的思想是結合認知科學中的雙通道理論。在人腦的認知系統中存在兩個系統：System 1 和 System 2，如下圖所示。System 1 是一個直覺系統，它可以通過人對相關信息的一個直覺匹配尋找答案，它是非常快速、簡單的；而 System 2 是一個分析系統，它通過一定的推理、邏輯找到答案。

在去年的 NIPS 上，圖靈獎獲得者 Bengio 在大會主旨報告的 Keynote 也提到，System 1 到 System 2 的認知是深度學習未來發展的重要的方向，如下圖所示：

因此，我們大概用這個思路構建了這個新的、我們稱為認知圖譜的這樣一個方法。在 System 1 中我們主要做知識的擴展，在 System 2 中我們做邏輯推理和決策，如下圖所示：

可以看到，我們在 System 1 中做知識的擴展，比如說針對前面的問題，我們首先找到相關的影片，然後用 System 2 來做決策。如果是標準答案，就結束整個推理的過程。如果不是標準答案，而相應的信息又有用，我們就把它作為一個有用信息提供給 System 1，System 1 繼續做知識的擴展，System 2 再來做決策，直到最終找到答案。

現在，在這兩個系統中，System 1 是一個直覺系統，我們用 BERT 來實現，實現了以後，我們就可以做相關的信息的匹配；System 2 就用一個圖卷積網絡來實現，在圖卷積網絡中可以做一定的推理和決策。通過這個思路，我們就可以實現一定的推理+決策。

這是一個總體的思路，要真正實現知識和推理，其實還需要兆級的常識知識庫的支持，如下圖所示。也就是說，四五十年前費根鮑姆做過的事情，也許我們現在要重做一遍，但是我們要做到更大規模的常識知識圖譜，並且用這樣的方法，用這樣的常識知識圖譜來支撐上面的深度學習的計算，這樣才能真正實現未來的 AI。

所以說，這一代人工智能浪潮也許到終點還是沒有推理能力，沒有可解釋能力。而下一波人工智能浪潮的興起，就是實現具有推理、具有可解釋性、具有認知的人工智能，我們認為這是 AI 下一個 10 年要發展、也一定會發展的一個重要方向。

這裡我列出來了相關的文章，大家感興趣的話可以看一下。想要了解更多內容，可以登錄http://keg.cs.tsinghua.edu.cn/jietang。

Ming Ding, Chang Zhou, Qibin Chen, Hongxia Yang, and Jie Tang. Cognitive Graph for Multi-Hop Reading Comprehension at Scale. ACL’19.

Jie Zhang, Yuxiao Dong, Yan Wang, Jie Tang, and Ming Ding. ProNE: Fast and Scalable Network Representation Learning. IJCAI’19.

Yukuo Cen, Xu Zou, Jianwei Zhang, Hongxia Yang, Jingren Zhou and Jie Tang. Representation Learning for Attributed Multiplex Heterogeneous Network. KDD’19.

Fanjin Zhang, Xiao Liu, Jie Tang, Yuxiao Dong, Peiran Yao, Jie Zhang, Xiaotao Gu, Yan Wang, Bin Shao, Rui Li, and Kuansan Wang. OAG: Toward Linking Large-scale Heterogeneous Entity Graphs. KDD’19.

Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou and Jie Tang. Towards Knowledge-Based Personalized Product Description Generation in E-commerce. KDD'19.

Yifeng Zhao, Xiangwei Wang, Hongxia Yang, Le Song, and Jie Tang. Large Scale Evolving Graphs with Burst Detection. IJCAI’19.

Yu Han, Jie Tang, and Qian Chen. Network Embedding under Partial Monitoring for Evolving Networks. IJCAI’19.

Yifeng Zhao, Xiangwei Wang, Hongxia Yang, Le Song, and Jie Tang. Large Scale Evolving Graphs with Burst Detection. IJCAI’19.

Jiezhong Qiu, Yuxiao Dong, Hao Ma, Jian Li, Chi Wang, Kuansan Wang, and Jie Tang. NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization. WWW'19.

Jiezhong Qiu, Jian Tang, Hao Ma, Yuxiao Dong, Kuansan Wang, and Jie Tang. DeepInf: Modeling Influence Locality in Large Social Networks. KDD’18.

Jiezhong Qiu, Yuxiao Dong, Hao Ma, Jian Li, Kuansan Wang, and Jie Tang. Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec. WSDM’18.

Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. KDD’08.

更多精彩內容，關注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App