每日最新頭條.有趣資訊

無需“域外”文本,微軟:NLP就應該針對性預訓練

新智元報導

來源:venturebeat

編輯:小勻

【新智元導讀】在生物醫學這樣的專業領域訓練NLP模型,除了特定數據集,「域外」文本也被認為是有用的。但最近,微軟的研究人員「大呼」:我不這麽覺得!

什麽是預訓練?

這是一個拷問人工智能「門外漢」的靈魂問題。

生而為人,我們不需要一切從零開始學習。但是,我們會「以舊學新」,用過去所學的舊知識,來理解新知識和處理各種新任務。

在人工智能中,預訓練就是模仿人類這個過程。

預訓練(pre-training)這個詞經常在論文中見到,指的是用一個任務去訓練一個模型,幫助它形成可以在其他任務中使用的參數。

用已學習任務的模型參數初始化新任務的模型參數。通過這種方式,舊的知識可以幫助新模型從舊的經驗中成功地執行新任務,而不是從零開始。

以前的研究已經表明,在像生物醫學這樣的專業領域,當訓練一個NLP模型時,特定領域的數據集可以提高準確性。不過,還有一個普遍的認識是,「域外」文本也有用。

但是!微軟研究人員對這一假設提出了質疑。

近日,微軟研究人員提出一種人工智能技術,針對生物醫學NLP的領域特定語言模型預訓練。並自信地說,通過從公開的數據集中編譯一個「全面的」生物醫學NLP基準,在包括命名實體識別、基於證據的醫學信息提取、文檔分類等任務上取得了最先進的成果。

他們認為,「混合領域」預訓練?不就是遷移學習的另一種形式嗎?源領域是一般文本(如新聞),目標領域是專門文本(如生物醫學論文)。

在此基礎上,針對特定領域的生物醫學NLP模型的預訓練總是優於通用語言模型的預訓練,說明「混合領域」預訓練並不完美。

神經語言模型預訓練的兩種範式。「混合領域」預訓練(上);隻使用域內文本預訓練(下)

如此自信,研究人員是有證據的。

他們通過對生物醫學NLP應用的影響,比較了訓練前的建模和特定任務的微調。

第一步,他們創建了一個名為生物醫學語言理解和推理基準(BLURB)的基準,該基準側重於PubMed(一個生物醫學相關的數據庫)提供的出版物,涵蓋了諸如關係提取、句子相似度和問題回答等任務,以及諸如是/否問題回答等分類任務。為了計算總結性分數,BLURB中的語料庫按任務類型分組,並分別打分,之後計算所有的平均值。

為了評估,他們又在最新的PubMed文檔中生成了一個詞匯表並訓練了一個模型:1400萬篇摘要和32億個單詞,總計21GB。在一台擁有16個V100顯卡的Nvidia DGX-2機器上,培訓了大約5天時間。這個模型具有62,500步長和批量大小,可與以前生物醫學預訓練實驗中使用的計算量相媲美。

又一個自信,研究人員說他們的模型——PubMedBERT,是建立在谷歌的BERT之上。

那個牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領域最具有突破性的一項技術。

但有趣的是,將PubMed的全文添加到預訓練文本(168億字)中會讓性能略有下降,直到預訓練時間延長。但研究人員將這部分歸因於數據中的噪聲。

“在本文中,我們挑戰了神經語言預訓練模型中普遍存在的假設(就是前面說的「混合領域」預訓練),並證明了從「無」開始對特定領域進行預訓練可以顯著優於「混合領域」預訓練。「為生物醫學NLP的應用帶來了新的、最先進的結果,」研究人員寫道,「我們未來會進一步探索特定領域的預培訓策略,將BLURB基準擴展到臨床或其他高價值領域。」

為了鼓勵生物醫學NLP的研究,研究人員創建了一個以BLURB基準為特色的排行榜。他們還以開源的方式發布了預先訓練過的特定任務模型。

研究已發布於預印論文網站arxiv上。

參考鏈接:https://venturebeat.com/

論文預印版:https://arxiv.org/pdf/2007.15779.pdf

獲得更多的PTT最新消息
按讚加入粉絲團