百度CTO王海峰詳解知識圖譜與語義理解

機器之心發布

機器之心編輯部

8 月 24 日至 27 日在杭州召開的 2019 年全國知識圖譜與語義計算大會（CCKS 2019）上，百度 CTO 王海峰發表了題為《知識圖譜與語義理解》的演講。

CCKS 2019 由中國中文信息學會語言與知識計算專業委員會主辦，浙江大學承辦，以「知識智能」為主題，吸引了來自海內外的八百多名科研學者、工業界專家和知名企業代表參加。

對知識的研究貫穿於整個人工智能的發展史，知識圖譜在人工智能技術領域的熱度也逐年上升。王海峰認為，知識圖譜是讓機器像人類一樣理解客觀世界的基石。在演講中，他用生動的實例展示了百度在知識圖譜和語義理解領域的技術探索及應用，並探討了其未來的發展方向。

以下是演講實錄：

非常高興能有機會參加知識圖譜和語義計算大會。

我現在在百度負責的技術涉及互聯網、大數據、人工智能等方方面面，但是我的專業其實是自然語言處理、知識圖譜。大概 26 年前，我在哈工大，在李生教授和趙鐵軍教授的指導下做機器翻譯系統。當時，主要是基於規則的系統，也要用到知識，那時的知識是把人類專家的知識編輯在規則裡，實現語言的理解、生成，然後實現翻譯。

過去 20 多年，這一領域從基礎研究到應用，都已經發生了非常大的變化。當然，20 多年相比於自然語言處理這個領域 70 多年的歷史來說，還很年輕。

自然語言處理這樣一個有 70 多年歷史的專業，現在仍然欣欣向榮，我想有兩個方面的原因：一方面是因為有大量用戶的真實需求，促使我們更多地投入這方面探索應用；另一方面自然語言處理發展了 70 多年遇到的很多問題都還沒有解決，需要我們進一步深入研究。

我首先從人工智能開始介紹。

大家都知道，人類歷史發展到現在，已經經歷了三次工業革命，每次工業革命都會帶來翻天覆地的變化，生產力的進步帶來了整個社會的變革，生活方式隨之發生深刻變化。第一次工業革命使人類走向機械化時代，第二次是帶來了電力，第三次是信息化革命。我們很幸運，今天處在第四次工業革命的開端，第四次工業革命的核心驅動力就是人工智能。當然，人工智能是為了模擬人的能力，需要包括語音、視頻、圖像、AR/VR 等感知方面的技術，也需要知識圖譜、語言理解等認知方面的技術。當然，還有機器學習，以及最近這些年很重要的深度學習等等。

感知能力很多生物都有，而且很多生物這方面的能力比人類強。認知能力則是人類特有的，包括我們的語言和知識。我們通過語言的交流、知識的呈現（知識呈現其實也是基於語言），把知識傳承下來。關於語言和知識，不管是對於人類還是對於人工智能都是非常重要的。

知識圖譜是讓機器像人類一樣理解客觀世界的基石。

過去這些年，AI 技術通過深度學習取得了非常好的效果，尤其是在語音、視覺等感知技術上取得了非常大的突破，甚至在很多方面，深度學習達到的效果已經超過了人類。

深度學習也給自然語言處理以及知識相關的技術帶來了非常大的幫助，但是我們繼續深入研究、應用實踐的時候會發現，我們還需要更好地結合知識、推進知識圖譜相關的工作，才能取得更好的效果。

基本的知識圖譜，會涉及到實體的屬性關係，每一個實體可能有若乾個屬性，實體和實體之間有很多關係，每一個關係基本上可以理解為是一個事實。因此知識圖譜就是對客觀世界的描述。百度 AI 多年技術積累和業務實踐的集大成是百度大腦，百度大腦發展了近 10 年的時間，其中的知識圖譜技術是從 2013 年開始做的。一方面知識圖譜的規模在快速增長，另一方面，基於知識圖譜來提供服務，每天滿足用戶各種需求的量級也在快速增加。過去這些年，百度知識圖譜的服務規模大概增長了 490 倍。

百度大腦技術能力的應用，一開始主要集中在搜索引擎上，之後開始突破互聯網業務的範疇，面向各種企業級的用戶，比如金融、客服、商業等，發展各種各樣的應用，同時也進行 AI 技術開放，比如通過百度大腦的 AI 開放平台，讓大家應用到我們的 AI 技術。

下圖所示是一個比較完整的百度語言和知識技術的布局。底層的基礎就是知識圖譜，通過知識挖掘、知識整合與補全、分布式圖索引及存儲計算等步驟，構建了包括實體、關注點、事件、行業知識、多媒體等等多元異構知識圖譜。自然語言處理相信大家都不陌生，一個相對完整的自然語言處理體系包括詞法、句法、語義到篇章各個方面。構建一個知識圖譜的時候，這裡面很多技術也會被綜合使用。百度語言與知識技術一方面全面支持百度自己的產品，比如搜索、問答、對話、機器翻譯等等，一方面通過開放賦能很多企業級的應用。

廣義來看，知識圖譜也是語言科學的一部分，知識的獲取和運用是理解語言不可或缺的；反過來，為了更好地去構建、挖掘知識圖譜，語言理解技術也是十分必要的，語言與知識技術是相輔相成的。

接下來，我會從這幾個方面來介紹：一方面是多元異構的知識圖譜構建，這裡面會涉及到圖譜構建的一些應用，包括複雜知識等等；另一方面，涉及自然語言處理技術的一些探索。當然，我們的架構圖遠比我今天所講的要完整。在實際應用中，我們還會通過百度的開源開放平台，進行數據和技術的開放。

首先說多元異構知識圖譜的構建。說到知識圖譜，首先就涉及到圖譜的構建，涉及到在開放的、海量的數據裡怎麽樣去挖掘數據、構建超大規模知識圖譜。我們人類學習知識，是靠各種視覺、聽覺等等去感知世界，不斷地建立和完善知識體系。機器如何學習？或者說讓一個機器的大腦怎麽去學？那就要靠數據, 比如互聯網上海量的多形態數據，蘊含了很多行業應用的有價值信息。

首先，我們從大量無標簽非結構化數據中進行開放知識挖掘，一方面我們基於多維數據分析和語言理解技術自動獲取知識挖掘模板，並通過不斷迭代獲取新模板、挖掘新知識；另一方面我們基於遠程監督學習來自動構建訓練語料。為了去除自動構建訓練語料中的噪聲樣例，我們提出注意力正則化（Attention Regularization）技術基於實體上下文進行分析，通過模型輸出指導標注語料的選擇。通過這樣一套方法，我們實現在千億級文本中進行更精準地開放知識抽取。

基於開放知識挖掘抽取了大量的 SPO 三元組，需要對其進行歸納整理，我們提出了自底向上的開放本體構建，即從開放數據中挖掘實體和關係，從海量實體關係中自動學習實體類別關係、類別上下位關係，並逐層抽象形成本體結構，實現知識體系的自學習和構建。利用這樣一套技術以後，本體規模增長了 30 倍，同時事實覆蓋也有一個穩定的增長。

另一方面，在這樣海量的數據裡，有很多相似知識可能是從不同的數據、不同的文章裡面抽取到的，這些知識如何進行融合、去粗取精，讓它更準確、有效？這又涉及到多源數據知識的整合。我們通過語義空間變換技術實現實體消歧、實體歸一等等，解決知識表示形式多樣，關聯融合困難的問題。基於前面提到的這些技術，我們現在構建了一個非常龐大的知識圖譜，裡面含有 6 億實體，事實的量或者說各種關係量已經達到了 3780 億。比我們人類大腦裡面儲備的知識多得多。

基本的知識圖譜構建了以後，真正要用於各種真實應用，又涉及到很多更複雜的知識。所以我們從簡單實體拓展到複雜事件，可以描述事件的動態、時序、空間、條件、概率等等關係。

下面我們說一下複雜知識。

比如桃園三結義的照片，在沒有任何知識的情況下只能識別出畫面中有三個人，有酒，有樹。但是結合實體知識，我們可以知道這三個人的身份和更多的信息，比如樹是桃樹。進一步基於事件知識，我們知道是東漢末年，劉備、關羽、張飛三人在桃園結義。有了事件知識以後，還可以對動態變化的客觀世界進行建模。

事件圖譜以事件為基本部門，表達事件相關的元素以及事件間的關聯關係，比如圖中的內馬爾轉會，中間最左邊是相似事件——姆巴佩轉會, 中間則以時間為線，從皇馬開價、被評為最佳球員、皇馬和巴薩的爭奪、到達成轉會協議……形成了一個完整的事件演變脈絡。而參與事件的角色稱為事件論元，如：內馬爾、姆巴佩、巴薩、皇馬等等，與對應的實體圖譜相關聯。

完整的事件圖譜技術包括，底層的數據，事件圖譜的構建（構建涉及到事件抽取、事件關係抽取、事件檢測等技術），事件圖譜的認知計算，例如事件鏈接、事件計算、事件推理，事件計算包括重要性計算、熱度計算、質量計算、相似度計算；事件推理包括事件關係推理、事件論元預測、事件演化預測等。現在我們基本上可以做到分鐘級的熱點事件收錄，實現千萬量級規模的事件庫，有十幾個領域、4300+事件的類型。事件圖譜應用，比如搜索熱點「華為正式發布鴻蒙」可以呈現出完整的事件發展過程，幫助用戶清楚地了解事件的來龍去脈；又如三峽大瀑布景區停業緊急通知，涉及地圖信息點的發現、更新。

說完了複雜知識，我們再說行業知識。

行業數據量非常龐大，但是真正應用在一個行業裡的時候，都需要轉化為行業相關的專業性知識。行業知識，需求到底大到什麽程度，舉一些例子：研究報告認為，到 2020 年，行業數據的體量會是非常巨大的，比如說法律專業每年產出 4 億卷宗，醫療方面的數據會提升 48% 以上。還有一些行業是知識密集型的，而運營商會用到很多的人工客服，中國有全職客服 500 萬人，人力成本巨大。另一方面，傳統行業對於大數據的應用比例還是很低的，比如金融行業非結構化數據佔 80% 左右，有效利用率只有 0.4%，而人工構建知識圖譜，以 freebase 為例，每條人工成本大約為 2.25 美元，也都不便宜。

與通用知識圖譜相比，行業知識圖譜有共性也有所區別。比如說，通用圖譜相對淺層，但覆蓋非常廣。因為通用知識圖譜主要是以互聯網、大數據為基礎的。大家知道，互聯網經過 20 多年的發展，已經和人類日常生活的方方面面都密不可分了，某種程度上，互聯網可以被理解為客觀世界的一個映射。這個龐大的網絡能夠構建很多種圖譜，但是真正涉及到某個行業的非常細致、深入的知識圖譜，互聯網不能都覆蓋到。所以，很多行業的知識圖譜是相對封閉的，一般是由一些專家去構建、去標注。從圖譜服務的角度，通用圖譜可以讓大家都去應用，但是行業圖譜是針對特定行業的需求，定製化程度比較高，也有不同的應用方向。所以，以通用圖譜為基礎，面向行業的開發者，在圖譜開發的時候，會涉及到一系列特有問題。

基於這樣的背景，我們構建了一體化的行業知識圖譜平台，將多年積累的通用圖譜構建能力遷移至行業，建設了行業圖譜的基礎架構和構建平台，以及智能問答、語義檢索、推理計算、智能推薦、內容生成等基礎能力組件，支撐行業應用，並且針對行業特點實現一些優化，服務於不同領域的用戶。

這裡簡單介紹一下醫療的知識圖譜。為了構建一個醫療場景的知識圖譜，我們跟很多合作夥伴合作構建了這樣一個框架，包括結構化的解析、實體鏈接、人機結合、因果關係學習、診斷路徑挖掘等等。我們可以看到，專業醫療圖譜涉及到醫院、醫師、疾病等等各個方面，通過醫療的認知計算，提供各種醫療臨床輔助決策服務。

多媒體知識圖譜。今天我講的題目，是知識圖譜和自然語言處理，但實際上，人類幾千年傳承靠知識來做載體，還包括了語音、視覺，以及各種各樣的形式。現在視覺類的產品，坦率來說都不智能。比如，計算機視覺技術可以識別，但識別出來之前，如何將這些孤立的數據聯繫起來？還是跟圖譜相關。我們可以基於圖譜把知識關聯起來，進行它們之間的關聯與計算，進而能夠做結構化的語義理解。

大家看到，這是《大河唱》的一些片段。這些片段裡面，我們通過綜合應用計算機視覺技術、語音識別技術、自然語言理解技術，把其中的語音、視覺、文本融合起來，並通過與背景知識的關聯，形成對視頻的深入理解。

接下來介紹知識增強的語言處理技術。

如前面所說，一方面語言理解是我們發現知識很重要的基礎，另一方面，有了這些知識，可以更好地幫助我們做人工智能。

在語言方面，首先介紹語義表示。我們知道，自然語言存在很多歧義，同時一個意思也可以用不同的詞來表述，句子表達的形式非常多。因而好的形式化語義表示是計算機處理語言的基礎，語義表示可以分為形式化符號表示和統計分布式表示。

隨著深度學習的興起，統計分布式語義表示這幾年很受歡迎。簡單回顧一下歷史，相信大家都很清楚，2003 年，圖靈獎獲得者 Bengio，最早提出了前饋神經網絡語言模型，這些年得到了很大的發展，這兩年出現了很多基於分布式表示的預訓練語言模型。今年百度先後發布了兩版語義理解框架 ERNIE。

ERNIE1.0 是基於知識增強的語義表示模型。我們為了訓練這些模型，使用了包括百度百科、新聞、對話等等海量的多樣化語料，同時強化了中文的詞、實體等先驗語義知識，從而得到更好的語義表示模型。

在 1.0 知識增強的基礎上，我們希望不斷更新這個系統，ERNIE2.0 在知識增強的同時，又增加了持續學習的能力，通過基於多任務學習的預訓練任務迭代，不斷提升模型性能。通過對百科、對話，篇章結構、網頁搜索、語義關係等超過 13 億知識不斷地學習，不斷地積累，ERNIE 在多項中英文自然語言處理任務上取得了業界最好效果。

基於語義表示，我們可以做更複雜的語言理解任務, 例如機器閱讀理解。

機器閱讀理解就是讓機器來閱讀文本，並且回答相關的問題。知識對於機器閱讀理解會起到什麽作用呢？比如這個例子，問的是《人在囧途》是誰的代表作，僅靠文本自身的內容是不夠的，需要基於一些外部知識來得到想要的答案。為此我們提出文本表示和知識表示融合的閱讀理解模型 KT-NET，通過融合前面講的知識圖譜增強文本閱讀能力。這個技術在實體對話等很多領域已經得到了非常好的應用效果。

閱讀理解能力也廣泛應用於搜索產品。現在我們的移動設備越來越小，而大家的工作生活節奏越來越快，希望搜索不再像以前是一條條的 URL、摘要，更直觀、準確的結果是大家更希望看到的。這裡面就涉及到智能問答的技術，比如「香格裡拉酒店的老闆是誰」，這個問題，大家就需要很直觀的回答。有時智能問答不僅僅是直接給出一個答案就可以，更多的應該是一段話來進行高度相關的解釋。比如面對「煎魚怎麽不粘鍋」這個問題，我們會給出方法一、方法二兩個回答。

對於聊天，我們提出基於知識的主動聊天技術。目前相對普遍的技術是用戶問一句，然後機器進行回答，用戶主動地問，機器被動應對。而真實場景的聊天，用戶是希望機器可以主動地發起對話的。於是我們設計了基於知識驅動的自主對話任務，讓機器根據給定的知識圖譜信息，主動來引領對話進程，達到信息充分互動。

基於百度飛槳（PaddlePaddle），我們開源了檢索模型、生成模型兩個主動對話的基線模型。同時我們舉辦了一個知識驅動的對話競賽，這個競賽影響很廣泛，參與度很高，隊伍報名數 1536 支，提交結果數 1688 次。

最後介紹一下語言生成，包括機器輔助寫作和智能自動創作。

現在內容創作過程中面臨一些痛點，包括捕捉不到熱點信息，實時報導速度不夠快，也包括人工審核成本高、搜集素材費時費力、創作用詞缺乏靈感、多模態內容需求等等。這些問題借助我們的技術，都可以緩解。創作前可以輔助選題、激發靈感，包括熱點發現、熱詞分析、事件檢索、觀點分析等等。創作中可能需要更多輔助的素材，把很多相關的內容呈現出來，這個時候需要做信息的推薦，加入一些領域知識庫，一些歷史相關的事件脈絡，幫助寫作。當然還有標題的生成，這個也是很有技術含量的。創作後保證質量、提升分發。保證質量包括文本糾錯、低質檢測、詞語潤色；提升分發，包括添加文章標簽、自動摘要、文本分類。

這是一個輔助寫作系統完整的架構圖。

這是一些輔助寫作示例。第一個熱詞分析是以「中美貿易戰」為例，第二個就是事件脈絡，第三個是標題生成，最右邊是文本糾錯、詞語潤色、文本標簽。

以上主要是通過輔助寫作提升效率，讓作者從重復工作中解放出來。另外一方面，機器也可以自動創作，能夠實時的追蹤事件的波動，自動把相關的信息匯聚，生成文章，覆蓋重要信息。相比人工寫作，既省時省力，還可以提升稿件質量，應用程度非常高，也非常廣。這是基於結構化數據自動生成新聞的基本過程，包括宏觀規劃、微觀規劃、表層實現。

為了實現智能創作，百度打造了智能創作可視化平台。

上述語言和知識技術，都是基於百度飛槳深度學習平台實現的，飛槳是國內唯一功能完整、開源開放的深度學習平台。其中 PaddleNLP 是中文語言與知識模型及數據集，開放了大規模的數據集，包括閱讀理解、對話、語音翻譯、信息抽取、實體鏈指數據集等等。提供基礎網絡，支持序列標注、文本分類、語義匹配、語言生成等等各種類型任務，還包括百度最新的前沿研究成果。

這個是百度大腦語言與知識技術開放平台全景，不僅包括知識表示、語義理解等基礎技術，還包括應用平台。比如翻譯開放平台，大家可以直接調用翻譯平台，進行翻譯任務。翻譯方面，我們提供多模翻譯、領域翻譯、通用翻譯等多項領先技術。此外還有 UNIT 平台，可以進行對話配置與訓練，以及行業知識圖譜平台、智能創作平台……此外，百度大腦還包括面向各種行業場景化的解決方案。

最後，百度願與學界、業界同仁，一起打造合作共贏的 AI 開放生態。

我的報告就到這裡，謝謝大家！

本文為機器之心發布，轉載請聯繫本公眾號獲得授權。

------------------------------------------------