每日最新頭條.有趣資訊

GitHub出現一個大型中文NLP資源,宣稱要放出億級語料庫

乾明 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

中文資訊很多,但要找到合適的中文語料很難。

有人看不下去了,在GitHub上開了一個項目,專門貢獻中文語料資源。

他說,要為解決中文語料難找貢獻一份力量。

什麽樣的資源?

目前,這個項目中一共有3種json版資源:

包含104萬個詞條的維基百科資源,包含250萬篇新聞的新聞語料,以及包含150萬個問答的百科類問答資源。

一般來說,這些資源可以作為通用的中文語料,用於預訓練或者構建詞向量等等。

不同的資源,用處也有不同,比如維基百科和問答百科,可以用來構建知識問答等等。

新聞語料資源,囊括了標題、關鍵詞、描述和正文,也可以用來訓練標題生成模型、關鍵詞生成模型等等。

此外,在對數據集劃分過的新聞語料和百科類問答資源中,隻提供訓練集和驗證集,不提供測試集數據的下載。

是因為——

希望更多人參與

資源的貢獻者表示,希望大家報告模型在驗證集上的準確率,並提供模型資訊、方法描述、運行方式,以及可運行的源代碼(可選)。

這些資訊都有的話,資源貢獻者會在測試集上測試模型,並給出準確率。

他表示,項目中的語料庫將會不斷擴充,號召大家多多貢獻資源,並給出了相應的目標:

到2019年5月1日,放出10個百萬級中文語料&3個千萬級中文語料。

到2019年12月31日,放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。

從目前已經有的資源來看,一個語料可以是一個問答,也可以是一個詞條等等。

這份資源的貢獻者,名為徐亮,杭州實在智能的算法專家,主要關注文本分類、意圖識別、問答和面向任務的對話。

如果你有興趣,請收好資源傳送門:

https://github.com/brightmart/nlp_chinese_corpus

此外,量子位之前也介紹過幾份中文NLP資源,也一並附於此:

加入社群

量子位現開放「AI+行業」社群,面向AI行業相關從業者,技術、產品等人員,根據所在行業可選擇相應行業社群,在量子位公眾號(QbitAI)對話界面回復關鍵詞“行業群”,獲取入群方式。行業群會有審核,敬請諒解。

此外,量子位AI社群正在招募,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字“交流群”,獲取入群方式。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。

喜歡就點「好看」吧 !

獲得更多的PTT最新消息
按讚加入粉絲團