每日最新頭條.有趣資訊

谷歌推出數據集搜索引擎,可支持中文搜索

剛剛年滿 20 歲的谷歌又一次在搜索領域擴大了自己的狩獵範圍。

今日,谷歌推出新的數據集搜索(Dataset Search)產品,希望幫助研究人員、記者和其他用戶更輕易地獲得這些數據。這一工具還提供以公開標準呈現的數據,從而幫用戶清楚地了解這些資訊的創建者、數據的收集途徑以及數據的用途。此外該工具還支持包括中文在內的多種語言進行搜索。

 

網上存在海量的研究數據,但是對這些網站進行篩選可能非常耗時,且數據的格式可能不易解析,因此谷歌推出數據集搜索。

 

谷歌數據集搜索地址:https://toolbox.google.com/datasetsearch

圖丨谷歌數據集搜索(圖源:DT 君)

 

此前,谷歌在今年 7 月推出的數據集標記架構,能夠提取用戶搜索結果中的數據,讓用戶更直觀的看到經過可視化處理的結果。新的數據集搜索正是正是基於這一數據集標記架構。

新的谷歌數據集搜索將收錄自然科學、社會科學以及其他學科的數據,同時,政府數據以及新聞機構如 ProPublica 的數據也會收錄其中。研究人員、記者等任何需要特定主題數據的人都能通過谷歌數據集搜索快速找到他們需要的數據。

 

另一方面,數據來源是這一搜索項目中的重要部分,谷歌在推出這一搜索功能的同時也為開發人員公布了數據集的標記要求。具體來說,谷歌向數據集所有方提供指南和框架,幫助他們描述其數據特性,以便谷歌和其他搜索引擎能識別並提供給搜索用戶。據介紹,這一框架是基於 Schema.org  標準化詞匯表實現的。谷歌對數據集的描述包括:數據集的創建者、發布時間、收集方式,使用條款等。而在用戶搜索時,谷歌基於已有數據集資訊,向用戶提供最接近他們搜索關鍵詞的內容。

 

為了讓更多數據所有者願意參與到這一項目中,Google AI 的電腦科學家 Natasha Noy 表示,這一搜索系統以後可能會變得更複雜,但目前谷歌目前不會對這些搜索結果中的數據集進行收集和分析。

 

(圖源:MIT Technology Review)

全球範圍內,政府機構、出版商、研究機構甚至個人維護著數千個開放的數據庫,其中包含的數據集超過百萬個。

Natasha Noy 曾向外媒表示:“我們的目標是將數萬個不同的數據集存儲庫統一起來,在不改變其位置的情況下將其提供給需要的人。”

 

目前,已經上線的谷歌數據集搜索還僅是測試版本。隨著越來越多數據集供應商標記其數據集,用戶在搜索中找到數據集的數量和範圍將會不斷擴大。同時,研究人員的搜索和使用數據的行為也能為谷歌提供參考,進而不斷優化搜索結果。

獲得更多的PTT最新消息
按讚加入粉絲團