挖掘全球研究論文的「野心」

去年，Carl Malamud（一位60歲的美國技術專家），在沒有告知出版商的情況下，與印度研究人員合作，搭建了一個巨大的文本和圖像資料庫，提取1847年至今的7300萬篇期刊文獻的數據。資料庫搭建在新德里賈瓦哈拉爾尼赫魯大學（JNU）。

Malamud表示「該資料庫並沒有採集每篇發表過的文獻，但文獻量依然巨大，體量與Web of Science資料庫的核心集相當」。Malamud及JNU合作者生物信息學家Andrew Lynn，將其稱為JNU數據倉庫。Malamud設想的是，掃描全球的科學文獻，利用軟體提取文獻的文本和圖片數據，給出科學洞察，而不需研究者實際閱讀原始文獻。

該項目引起眾多研究者的興趣，因為它釋放了大量付費文獻，以便於進行計算機分析。既往已有眾多研究小組在挖掘文獻，建立基因和化學資料庫，繪製蛋白質和疾病之間的聯繫，併產生了有用的科學假設。然而，出版商限制了這些項目的發展速度和範圍，通常限制只能訪問摘要而非全文。因此，印度、美國和英國的一些研究人員已經決定轉向使用JNU資料庫。

不過，該資料庫的合法性尚不清楚。Malamud在開始建設資料庫之前，聯繫了幾位知識產權（IP）律師，希望免予訴訟。「我們認為我們所做的事情是完全合法的」。目前，他仍然很謹慎：JNU資料庫是隔離網路（air-gapped），沒有人可以從互聯網訪問到。用戶需要物理訪問該資料庫，目前只有非商業用途的研究人員才可以進入。Malamud表示，計劃在未來允許遠程訪問。

搭建JNU資料庫的契機

這個項目的觸發點是2016年德裡高等法院的一項判決，該案件針對的是德裡大學校園裡的一家複印店。多年來，該店一直複印昂貴的教科書，提供給學生課程包。教科書價格在7-277美元不等，對很多學生來說是無法負擔的。2012年，三家出版商對該大學提起訴訟，要求其購買複製文本的許可權。但德裡高等法院駁回了該訴訟。

（圖片來源：Nature官網）

Malamud在聽說該判決的時候，手上已經有了8個硬碟，包含來自SCI-Hub的數百萬期刊文獻（他未說是如何獲得的）。Sci-Hub本身因侵權受到訴訟，但是其部分域名仍在運行。Malamud開始思考是否可以通過Sci-Hub來使印度學生受益。

最終，他還是把注意力放在了JNU文本挖掘上。他對該資料庫的文章來源未明確說明，有人詢問這些文章是否來自SCI-Hub，他未給出答覆，僅列出免費論文下載的一些合法來源（如PubMed Central和Unpaywall）。但他也明確說，沒有與出版商簽訂任何合約。

數據挖掘的力量

加州大學聖克魯茲分校（UCSC）的生物信息學家Max H?ussler表示，JNU資料庫可以幫助掃清科學家使用軟體對研究進行分析的障礙，「目前幾乎不可能對學術論文進行文本挖掘，甚至那些已經付費購買過文章的人」。

自2009年以來，H?ussler團隊一直在構建在線UCSC基因組瀏覽器，將人類基因組的DNA序列與提及相同序列的研究論文關聯起來。為此，研究人員聯繫了40多家出版商，請求允許他們使用軟體從研究中探索相關的DNA序列。但是15家出版商沒有回復甚至明確拒絕。H?ussler不確定是否可以在未經許可的情況下合法地挖掘論文信息，所以沒敢嘗試。

曾在柏林QUEST轉化生物醫學中心工作的統計學家Chris Hartgerink表示，他現在隻對開放獲取出版商的文獻進行文本挖掘，因為與「封閉出版商打交道太麻煩了」。幾年前，當Hartgerink在荷蘭攻讀博士學位時，批量下載文獻進行數據挖掘時，有三家出版商限制了他的訪問許可權。

一些國家已經改變了法律，確保非商業使用的研究人員不需要版權方的許可來挖掘可合法訪問的內容。英國於2014年通過了這項法律，歐盟今年也通過了類似的規定。但無法合法訪問論文的貧窮國家的學者仍處在困境。

即使在英國，出版商也會進行「合理地」限制，例如，限定電子搜索或批量下載的速度，以防止伺服器過載。英國曼徹斯特大學的John McNaught認為，這樣的限制大有問題，「每五秒下載一篇文章的限制，對於一個人來說，聽起來很快，但對於一台機器來說卻非常緩慢。下載600萬篇文獻需要一年，下載所有已發表的生物醫學文獻，需要5年時間」。

研究者們在挖掘時還需要克服一些技術難題。很難從出版商使用的排版和設置中提取文本，這也是JNU團隊目前正在努力解決的問題。例如，將PDF轉換為純文本的工具，並不總能清楚地區分段落、腳註和圖片。一旦JNU團隊完成了這項工作，其他人都能從中獲益。Malamud說，他們團隊即將完成對7300萬篇論文的第一輪提取，但還需要檢查錯誤，預計該資料庫在年底前完成。

有些研究者已經準備好開始使用JNU數據倉庫了。生物信息學家Srinivasan Ramachandran的團隊，運行了一個與2型糖尿病相關的基因資料庫，他們一直在抓取PubMed摘要來尋找合適的文獻。他希望藉助JNU資料庫來擴大其挖掘網路。

冒險的事情

當Nature聯繫15家出版商詢問關於JNU資料庫的事情時，回復的6位人士表示，他們第一次聽說，在沒有更多信息的情況下無法評論其合法性。但6家出版商都明確表示，挖掘論文的研究人員需要獲取授權。

Sci-Hub發布的數據顯示，印度是其網站的全球最大用戶國家之一。Malamud承認，目前在做的事情存在一些風險，但他認為這樣做「在道德上至關重要」。

文獻來源：The plan to mine the world』s research papers. Nature. 17 JULY 2019.

更多閱讀

TAG: |