每日最新頭條.有趣資訊

谷歌數據集搜索正式版出爐:全面升級,覆蓋2500萬數據集

機器之心報導

參與:李澤南、一鳴

公開數據集往往存在於論文和網站數據庫中,想要找到它們需要花費一番功夫。除了機器之心 SOTA以外,搜索公開數據集的搜索引擎仍然比較少——除了谷歌的數據集搜索工具以外。

近日,谷歌宣布,它們的數據集搜索引擎不再是 beta 版了。這意味著該產品已經正式向用戶們開放使用。Jeff Dean 和谷歌官方都在推特上宣布了這一消息。

谷歌數據集搜索的 beta 版本早在 2018 年 9 月就上線了,該引擎面向「科學家、開發者、數據極客等人群」,一直以來都是人們尋找數據集的主要方式之一。

鏈接:https://datasetsearch.research.google.com/

谷歌表示,經過一年多的努力,數據集搜索功能的階段性測試已經完成。

如果你在數據集搜索上輸入「skiing」,會出現的結果:出現了從最快的滑雪運動員到滑雪地的收入數據集等不同類型。

正式版更新了什麽?

谷歌從用戶在 Beta 版的使用中獲得了很多經驗。在正式版中,你可以根據所需的數據集類型(表格、圖片、文本等),或者數據集是否可以免費獲取等條件來進行搜索。如果數據集是關於某個地區的,你也可以通過地圖進行查找。另外,現在搜索也做了移動端的適配,並大幅改善了數據及描述的質量。任何數據集發布者都可以通過 schema.org 開放標準在自己的網站上進行規範性描述,以提高搜索結果的質量。

對於不同的學科來說,人們進行的搜索是完全不同的:科學家會尋找研究目標(如搜索催產素),學生會搜索包含自己作業主題的關鍵字,業務分析師和數據科學家會尋找移動 app 或快餐店銷售的數據……今天,所有這些內容都有數據集。

谷歌表示,目前人們在數據集搜索上查詢頻率最高的詞是「教育」、「氣象」、「癌症」、「犯罪」、「足球」以及「狗」。

搜索「快餐店」出現的結果索引。

哪些數據集可以找到?

數據集搜索引擎可以提供數據集的快照信息,特別是有關地理信息、生物和農業方面的信息。很多信息都來自於 schema.org,只要網絡上存在的數據集符合 schema 的開放標準,搜索引擎就可以搜索到。

除了公開數據之外,數據集搜索引擎還包括了很多政府公開數據,包括美國政府超過兩百萬的數據集。絕大部分的公開數據都是以表格形式存儲的,可以很容易地下載並進行處理。

使用體驗

機器之心嘗試了這一數據集搜索工具。例如,我們在搜索欄裡輸入了 CIFAR,搜索引擎很容易就提供了 CIFAR-10 和 CIFAR-100 兩個數據集的搜索結果,並附帶數據集全名、被引用數量、更新時間、提供者、下載方式、介紹和信息來源等。

如果我們不知道數據集叫什麽名字,但是想看看有沒有某種數據的數據集呢?機器之心嘗試了一些不常用關鍵詞,如「Chinese Poem」(中國詩歌)。

搜索結果也還不錯,提供了相當多的數據集,包括數據集所在的論文等。

下一步計劃

項目團隊表示,他們會繼續優化數據集搜索這項產品,並歡迎用戶提出進一步改進建議。

參考鏈接:

https://blog.google/products/search/discovering-millions-datasets-web/

https://www.reddit.com/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/

本文為機器之心報導,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

獲得更多的PTT最新消息
按讚加入粉絲團