每日最新頭條.有趣資訊

史上最大規模:這有一份1.4億的中文開源知識圖譜

機器之心整理

參與:鄭麗慧、杜偉

知識圖譜是人工智能新時代的產物,簡單地說知識圖譜就是通過關聯關係將知識組成網狀的結構,然後我們的人工智能可以通過這個圖譜來認識其代表的這一個現實事件,這個事件可以是現實,也可以是虛構的。

近日,一直致力於知識圖譜研究的 OwnThink 平台在 Github 上開源了史上最大規模 1.4 億中文知識圖譜,其中數據是以(實體、屬性、值),(實體、關係、實體)混合的形式組織,數據格式採用 csv 格式。

到目前為止,OwnThink 項目開放了對話機器人、知識圖譜、語義理解、自然語言處理工具。知識圖譜融合了兩千五百多萬的實體,擁有億級別的實體屬性關係,機器人採用了基於知識圖譜的語義感知與理解,致力於最強認知大腦。自然語言處理工具包的功能有:中文分詞、詞性標注、命名實體識別、關鍵詞提取、文本摘要、新詞發現、情感分析等。

Github 地址:https://github.com/ownthink/KnowledgeGraphData

ownthink 網站地址:https://www.ownthink.com/

那麽 OwnThink 知識圖譜的具體演示是怎樣的呢?

本次 ownthink 開源的中文知識圖譜,數據是以(實體、屬性、值),(實體、關係、實體)混合的形式組織,數據格式採用 csv 格式。

知識圖譜演示

在 OwnThink 平台首頁上滾動著各種關鍵詞,用戶也可輸入自己想要查詢的知識,然後就可以得出相應的知識圖譜。

用戶輸入關鍵詞即可得出相應的知識圖譜。

我們以「姚明」為關鍵詞搜索相應的知識圖譜,可以得到出生日期、隊友路易斯·斯科拉、畢業院校等相關信息。

對話機器人

OwnThink 知識圖譜還可以應用於機器人問答系統、知識推薦等等。下圖為知識圖譜在機器人上的應用。

基於知識圖譜的對話機器人系統。

數據下載方式:

百度網盤鏈接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw

提取碼: 3hpp

注:解壓密碼是 ownthink

首頁地址:https://www.ownthink.com/

使用與安裝

按照上面的下載地址,拿到文件並解壓後查看知識圖譜規模:

查看知識圖譜數據:

使用 python 進行讀取測試:

運行以上腳本輸出結果:

本文為機器之心整理,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

獲得更多的PTT最新消息
按讚加入粉絲團