每日最新頭條.有趣資訊

AI人必看!89頁全網最全清華知識圖譜報告

智東西(公眾號: zhidxcom)

編 | 智東西內參

知識圖譜(Knowledge Graph)是人工智能的重要分支技術,它在2012年由谷歌提出,成為建立大規模知識的殺手鐧應用,在搜索、自然語言處理、智能助手、電子商務等領域發揮著重要作用。

知識圖譜與大數據、深度學習,這三大“秘密武器”已經成為推動互聯網和人工智能發展的核心驅動力之一。

本期的智能內參,我們推薦來自清華大學人工智能研究院、北京智源人工智能研究院、清華-工程院知識智能聯合研究中心聯合推出的人工智能知識圖譜報告,詳細解讀了知識圖譜的這一人工智能技術分支的概念、技術、應用、與發展趨勢。如果想收藏本文的報告(清華AMiner-人工智能之知識圖譜),可以前往

AMiner官網

獲取下載。

以下為智能內參整理呈現的乾貨:

一、知識圖譜的概念與分類

知識圖譜(Knowledge Graph)於2012年由谷歌提出並成功應用於搜索引擎當中。它以結構化的形式描述客觀世界中概念、實體及其之間的關係,將互聯網的資訊表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量資訊的能力。

知識圖譜的分類方式很多,例如可以通過知識種類、構建方法等劃分。從領域上來說,知識圖譜通常分為兩種:通用知識圖譜、特定領域知識圖譜

知識圖譜示意圖

常見的知識圖譜示意圖主要包含有三種節點:實體、概念、屬性。

實體指的是具有可區別性且獨立存在的某種事物。如某一個人、某一座城市、某一種植物、某一件商品等等。世界萬物由具體事物組成,此指實體。實體是知識圖譜中的最基本元素,不同的實體間存在不同的關係。

概念指的是具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。

屬性則用於區分概念的特徵,不同概念具有不同的屬性。不同的屬性值類型對應於不同類型屬性的邊。如果屬性值對應的是概念或實體,則屬性描述兩個實體之間的關係,稱為對象屬性;如果屬性值是具體的數值,則稱為數據屬性。

二、知識圖譜的三大典型應用

現在以商業搜索引擎公司為首的互聯網巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵布局知識圖譜,並對搜索引擎形態日益產生重要的影響。如何根據業務需求設計實現知識圖譜應用,並基於數據特點進行優化調整,是知識圖譜應用的關鍵研究內容。

知識圖譜的典型應用包括語義搜索智能問答以及可視化決策支持三種。

1、語義搜索

當前基於關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基於實體和關係的檢索,稱之為語義搜索。

語義搜索可以利用知識圖譜可以準確地捕捉用戶搜索意圖,進而基於知識圖譜中的知識解決傳統搜索中遇到的關鍵字語義多樣性及語義消歧的難題,通過實體鏈接實現知識與文檔的混合檢索。

語義檢索需要考慮如何解決自然語言輸入帶來的表達多樣性問題,同時需要解決語言中實體的歧義性問題。同時借助於知識圖譜,語義檢索需要直接給出滿足用戶搜索意圖的答案,而不是包含關鍵詞的相關網頁的鏈接。

2、智能問答

問答系統(Question Answering,QA)是資訊服務的一種高級形式,能夠讓電腦自動回答用戶所提出的問題。不同於現有的搜索引擎,問答系統返回用戶的不再是基於關鍵詞匹配的相關文檔排序,而是精準的自然語言形式的答案。

智能問答系統被看作是未來資訊服務的顛覆性技術之一,亦被認為是機器具備語言理解能力的主要驗證手段之一。

智能問答需要針對用戶輸入的自然語言進行理解,從知識圖譜中或目標數據中給出用戶問題的答案,其關鍵技術及難點包括準確的語義解析、正確理解用戶的真實意圖、以及對返回答案的評分評定以確定優先級順序。

3、可視化決策支持

可視化決策支持是指通過提供統一的圖形接口,結合可視化、推理、檢索等,為用戶提供資訊獲取的入口。例如,決策支持可以通過圖譜可視化技術對創投圖譜中的初創公司發展情況、投資機構投資偏好等資訊進行解讀,通過節點探索、路徑發現、關聯探尋等可視化分析技術展示公司的全方位資訊。

可視化決策支持需要考慮的關鍵問題包括通過可視化方式輔助用戶快速發現業務模式、提升可視化組件的互動友好程度、以及大規模圖環境下底層算法的效率等。

三、通用知識圖譜與特定領域知識圖譜

1、通用知識圖譜

通用知識圖譜可以形象地看成一個面向通用領域的“結構化的百科知識庫”,其中包含了大量的現實世界中的常識性知識,覆蓋面極廣。由於現實世界的知識豐富多樣且極其龐雜,通用知識圖譜主要強調知識的廣度,通常運用百科數據進行自底向上(Top-Down)的方法進行構建,下圖展示的即是常識知識庫型知識圖譜。

國外的DBpedia使用固定的模式從維基百科中抽取資訊實體,當前擁有127種語言的超過兩千八百萬實體以及數億RDF三元組;YAGO則整合維基百科與WordNet的大規模本體,擁有10種語言約459萬個實體,2400萬個事實。

國內的Zhishi.me從開放的百科數據中抽取結構化數據,當前已融合了包括百度百科、互動百科、中文維基三大百科的數據,擁有1000萬個實體數據、一億兩千萬個RDF三元組。

2、領域知識圖譜應用

領域知識圖譜常常用來輔助各種複雜的分析應用或決策支持,在多個領域均有應用,不同領域的構建方案與應用形式則有所不同。

以電商為例,電商知識圖譜以商品為核心,以人、貨、場為主要框架。目前共涉及9大類一級本體和27大類二級本體。

一級本體分別為:人、貨、場、百科知識、行業競對、品質、類目、資質和輿情。人、貨、場構成了商品資訊流通的閉環,其他本體主要給予商品更豐富的資訊描述。

上圖描述了商品知識圖譜的數據模型,數據來源包含國內-國外數據,商業-國家數據,線上-線下等多源數據。目前有百億級的節點和百億級的關係邊。

電商知識圖譜,這個商品“大腦”的一個應用場景就是導購。而所謂導購,就是讓消費者更容易找到他想要的東西,比如說買家輸入“我需要一件漂亮的真絲絲巾”,“商品大腦”會通過語法詞法分析來提取語義要點“一”、“漂亮”、“真絲”、“絲巾”這些關鍵詞,從而幫買家搜索到合適的商品。

在導購中為讓發現更簡單,“商品大腦”還學習了大量的行業規範與國家標準,比如說全棉、低糖、低嘌呤等。

此外,它還有與時俱進的優點。“商品大腦”可以從公共媒體、專業社區的資訊中識別出近期熱詞,跟蹤熱點詞的變化,由運營確認是否成為熱點詞,這也是為什麽買家在輸入斬男色、禁忌之吻、流蘇風等熱詞後,出現了自己想要的商品。

最後,智能的“商品大腦”還能通過實時學習構建出場景。比如輸入“海邊玩買什麽”,結果就會出現泳衣、游泳圈、防曬霜、沙灘裙等商品。

四、知識工程的五個發展階段

知識圖譜技術屬於知識工程的一部分。1994年,圖靈獎獲得者、知識工程的建立者費根鮑姆給出了知識工程定義——將知識集成到電腦系統,從而完成只有特定領域專家才能完成的複雜任務。

回顧知識工程這四十多年來的發展歷程,我們可以將知識工程分成五個標誌性的階段:前知識工程時期、專家系統時期、萬維網1.0時期、群體智能時期、以及知識圖譜時期,如下圖所示。

1)1950-1970時期:圖靈測試—知識工程誕生前期

這一階段主要有兩個方法:符號主義和連結主義。符號主義認為物理符號系統是智能行為的充要條件,連結主義則認為大腦(神經元及其連接機制)是一切智能活動的基礎。

這一時期的知識表示方法主要有邏輯知識表示、產生式規則、語義網絡等。

2)1970-1990時期:專家系統—知識工程蓬勃發展期

由於通用問題求解強調利用人的求解問題的能力建立智能系統,但是忽略了知識對智能的支持,使人工智能難以在實際應用中發揮作用。從70年開始,人工智能開始轉向建立基於知識的系統,通過“知識庫+推理機”實現機器智能。

這一時期知識表示方法有新的演進,包括框架和腳本等80年代後期出現了很多專家系統的開發平台,可以幫助將專家的領域知識轉變成電腦可以處理的知識。

3)1990-2000時期:萬維網1.0

在1990年到2000年期間,出現了很多人工構建大規模知識庫,包括廣泛應用的英文WordNet,採用一階謂詞邏輯知識表示的Cyc常識知識庫,以及中文的HowNet。

Web 1.0萬維網的產生為人們提供了一個開放平台,使用HTML定義文本的內容,通過超鏈接把文本連接起來,使得大眾可以共享資訊。W3C提出的可擴展標記語言XML,實現對互聯網文檔內容的結構通過定義標簽進行標記,為互聯網環境下大規模知識表示和共享奠定了基礎。

4)2000-2006時期:群體智能

萬維網的出現使得知識從封閉知識走向開放知識,從集中構建知識成為分布群體智能知識。原來專家系統是系統內部定義的知識,現在可以實現知識源之間相互鏈接,可以通過關聯來產生更多的知識而非完全由固定人生產。

這個過程中出現了群體智能,最典型的代表就是維基百科,實際上是用戶去建立知識,體現了互聯網大眾用戶對知識的貢獻,成為今天大規模結構化知識圖譜的重要基礎。

5)2006年至今:知識圖譜—知識工程新發展時期

“知識就是力量”,將萬維網內容轉化為能夠為智能應用提供動力的機器可理解和計算的知識是這一時期的目標。從2006年開始,大規模維基百科類富結構知識資源的出現和網絡規模資訊提取方法的進步,使得大規模知識獲取方法取得了巨大進展。

當前自動構建的知識庫已成為語義搜索、大數據分析、智能推薦和數據集成的強大資產,在大型行業和領域中正在得到廣泛使用。典型的例子是谷歌收購Freebase後在2012年推出的知識圖譜(Knowledge Graph),Facebook的圖譜搜索,Microsoft Satori以及商業、金融、生命科學等領域特定的知識庫。

上表中展示的是知識圖譜領域10個相關重要國際學術會議,這些會議為知識圖譜領域的研究方向、技術趨勢與學者研究成果提供重要資訊。

五、把知識變成圖譜一共需要花幾步?

知識圖譜技術是知識圖譜建立和應用的技術,參考中國中文資訊學會語言與知識計算專委會發布的《知識圖譜發展報告2018年版》,本報告將知識圖譜技術分為知識表示與建模、知識獲取、知識融合、知識圖譜查詢和推理計算、知識應用技術。

1、知識表示與建模

知識表示將現實世界中的各類知識表達成電腦可存儲和計算的結構。機器必須要掌握大量的知識,特別是常識知識才能實現真正類人的智能。

目前,隨著自然語言處理領域詞向量等嵌入(Embedding)技術手段的出現,採用連續向量方式來表示知識的研究(TransE翻譯模型、SME、SLM、NTN、MLP,以及NAM神經網絡模型等)正在逐漸取代與上述以符號邏輯為基礎知識表示方法相融合,成為現階段知識表示的研究熱點。更為重要的是,知識圖譜嵌入也通常作為一種類型的先驗知識輔助輸入到很多深度神經網絡模型中,用來約束和監督神經網絡的訓練過程,如下圖所示。

相比於傳統人工智能,知識圖譜時代基於向量的知識表示方法不僅能夠以三元組為基礎的較為簡單實用的知識表示方法滿足規模化擴展的要求,還能夠作為大數據分析系統的重要數據基礎,幫助這些數據更加易於與深度學習模型集成。

同時,隨著以深度學習為代表的表示學習的發展,面向知識圖譜中實體和關係的表示學習也取得了重要的進展。知識表示學習將實體和關係表示為稠密的低維向量實現了對實體和關係的分布式表示,已經成為知識圖譜語義鏈接預測和知識補全的重要方法。

知識表示學習是近年來的研究熱點,研究者提出了多種模型,學習知識庫中的實體和關係的表示。不過其中關係路徑建模工作較為初步,在關係路徑的可靠性計算、語義組合操作等方面還有很多細致的考察工作需要完成。

2、知識獲取

知識獲取包括了實體識別與鏈接、實體關係學習、以及事件知識學習。

1)實體識別與鏈接是知識圖譜構建、知識補全與知識應用的核心技術,也是海量文本分析的核心技術,為電腦類人推理和自然語言理解提供知識基礎。

實體識別是文本理解意義的基礎,也就是識別文本中指定類別實體的過程,可以檢測文本中的新實體,並將其加入到現有知識庫中。

2)實體關係識別是知識圖譜自動構建和自然語言理解的基礎。實體關係定義為兩個或多個實體間的某種聯繫,用於描述客觀存在的事物之間的關聯關係。實體關係學習就是自動從文本中檢測和識別出實體之間具有的某種語義關係,也稱為關係抽取。

實體關係抽取分為預定義關係抽取和開放關係抽取。預定義關係抽取是指系統所抽取的關係是預先定義好的,如上下位關係、國家—首都關係等。開放式關係抽取不預先定義抽取的關係類別,由系統自動從文本中發現並抽取關係。

3)事件知識學習,就是將非結構化文本中自然語言所表達的事件以結構化的形式呈現,對於知識表示、理解、計算和應用意義重大。

事件是促使事物狀態和關係改變的條件,是動態的、結構化的知識。目前已存在的知識資源(如谷歌知識圖譜)所描述多是實體以及實體之間的關係,缺乏對事件知識的描述。

3、知識融合

知識圖譜可以由任何機構和個人自由構建,其背後的數據來源廣泛、品質參差不齊,導致它們之間存在多樣性和異構性。語義集成的提出就是為了能夠將不同的知識圖譜融合為一個統一、一致、簡潔的形式,為使用不同知識圖譜的應用程式間的互動建立操作性。

常用的技術包括本體匹配(也稱為本體映射)、實力匹配(也稱為實體對齊、對象公指消解)以及知識融合等。

一個語義集成的常見流程,主要包括:輸入預處理匹配知識融合輸出5個環節,如上圖所示。

眾包和主動學習等人機協作方法是目前實例匹配的研究熱點。這些方法雇傭普通用戶,通過付出較小的人工代價來獲得豐富的先驗數據,從而提高匹配模型的性能。

隨著表示學習技術在諸如影像、影片、語言、自然語言處理等領域的成功,一些研究人員開始著手研究面向知識圖譜的表示學習技術,將實體、關係等轉換成一個低維空間中的實質向量(即分布式語義表示),並在知識圖譜補全、知識庫問答等應用中取得了不錯的效果。

與此同時,近年來強化學習也取得了一些列進展,如何在語義集成中運用強化學習逐漸成為新的動向。

4、知識圖譜查詢和推理計算

知識圖譜以圖(Graph)的方式來展現實體、事件及其之間的關係。知識圖譜存儲和查詢研究如何設計有效的存儲模式支持對大規模圖數據的有效管理,實現對知識圖譜中知識高效查詢。

知識推理則從給定的知識圖譜推導出新的實體跟實體之間的關係,在知識計算中具有重要作用,如知識分類、知識校驗、知識鏈接預測與知識補全等。

知識圖譜推理可以分為基於符號的推理和基於統計的推理。

在人工智能的研究中,基於符號的推理一般是基於經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說缺省邏輯)。基於符號的推理可以從一個已有的知識圖譜推理出新的實體間關係,可用於建立新知識或者對知識圖譜進行邏輯的衝突檢測。

基於統計的方法一般指關係機器學習方法,即通過統計規律從知識圖譜中學習到新的實體間關係。

六、發展趨勢與挑戰

整體而言,知識圖譜領域的發展將會持續呈現特色化開放化智能化的趨勢,為更好發揮現有知識圖譜知識表達、知識資源優勢,需與其他技術(資訊推薦、事理圖譜、機器學習、深度學習等)。

雖然當下互聯網巨頭們已經意識到知識圖譜的戰略意義,紛紛投入重兵布局知識圖譜,但是我們也強烈地感受到,知識圖譜還處於發展初期,大多數商業知識圖譜的應用場景非常有限,例如搜狗、知立方更多聚焦在娛樂和健康等領域。

同時,根據各搜索引擎公司提供的報告來看,為了保證知識圖譜的準確率,仍然需要在知識圖譜構建過程中採用較多的人工乾預。

如何合理設計表示方案,更好地涵蓋人類複雜化、多樣化的知識?如何準確、高效地從互聯網大數據萃取知識?如何將存在大量噪聲和冗余的知識有機融合起來,建立更大規模的知識圖譜?如何有效實現知識圖譜的應用,利用知識圖譜實現深度知識推理,提高大規模知識圖譜計算效率和應用場景?

在未來的一段時間內,知識圖譜將是大數據智能的前沿研究問題,這些重要的開放性問題亟待學術界和產業界協力解決。

下面兩圖是AMiner數據平台繪製的知識圖譜領域近期與全局熱點詞匯。

由以上兩圖可知,知識庫、資訊檢索、數據挖掘、知識表示、社會網絡等方向在知識圖譜領域的熱度長盛不衰。

除此之外,資訊提取、查詢應答、問題回答、機器學習、概率邏輯、實體消歧、實體識別、查詢處理、決策支持等方向的研究熱度在近年來逐漸上升,概念圖、搜索引擎、資訊系統等方向的熱度逐漸消退。

智東西認為,在知識圖譜的驅動下,以智能客服、智能語音助手等為首的AI應用正成為首批人工智能技術落地變現的先鋒部隊,知識圖譜也因此成為了各大人工智能與互聯網公司的兵家必爭之地,它與大數據、深度學習一起,成為推動互聯網和人工智能發展的核心驅動力之一。

不過正如報告中提到的,目前為了保證準確率,知識圖譜在構建過程中仍然需要在採用較多的人工乾預;同時,知識圖譜還處於發展初期,商業應用場景有限,有待進一步開拓。

獲得更多的PTT最新消息
按讚加入粉絲團