每日最新頭條.有趣資訊

資源有限、團隊不大,NLP領域還能做哪些價值的工作?

新智元報導

來源:知乎

作者:劉知遠、林禹臣、駱梁宸

【新智元導讀】對於資源有限,無法調用大批量計算資源的小團隊來說,怎樣在NLP領域做出突出的工作?本文帶來清華大學劉知遠等人的三個有啟發性的回答。

隨著 BERT, GPT-2 的出現,NLP 領域的很多問題可以被基於語言模型的超大模型突破。

這些突破性的模型無一例外都要求超大的數據和驚人的計算量,那麽,對於資源有限,無法調用大批量計算資源的小團隊來說,我們還能在哪些方面做出突出的工作呢?

相信許多NLP領域研究員、學生都有過這種想法,或對這種研究現狀感到無力。

新智元在此推薦清華大學計算機科學與技術系副教授劉知遠老師、南加州大學計算機科學博士生林禹臣、以及北京大學計算語言學重點實驗室的研究助理駱梁宸同學的3個回答,希望對大家有幫助。

經授權轉載如下:

關注純數據驅動技術無法解決的問題

作者:劉知遠

鏈接:https://www.zhihu.com/question/312388163/answer/600519086

我感覺,產業界開始集團化搞的問題,說明其中主要的開放性難題已經被解決得差不多了。看最近的 BERT、GPT-2,我理解更多的是將深度學習對大規模數據擬合的能力發揮到極致,在深度學習技術路線基本成熟的前提下,大公司有強大計算能力支持,自然可以數據用得更多,模型做得更大,效果擬合更好。

成熟高新技術進入商用競爭,就大致會符合摩爾定律的發展規律。現在 BERT 等訓練看似遙不可及,但隨著計算能力等因素的發展普及,說不定再過幾年,人人都能輕易訓練 BERT 和 GPT-2,大家又會在同一個起跑線上,把目光轉移到下一個挑戰性難題上。

所以不如提前考慮,哪些問題是純數據驅動技術無法解決的。NLP 和 AI 中的困難任務,如常識和知識推理,複雜語境和跨模態理解,可解釋智能,都還沒有可行的解決方案,我個人也不看好數據驅動方法能夠徹底解決。更高層次的聯想、創造、頓悟等認知能力,更是連邊還沒碰到。這些正是有遠見的研究者們應該開始關注的方向。

關注特定任務、領域的設計

作者:林禹臣BiLL (個人主頁:yuchenlin.xyz)

鏈接:https://www.zhihu.com/question/312388163/answer/600712686

其實我覺得 BERT 等大型預訓練模型的出現,其實對於小規模的團隊反而是有非常積極的促進作用。使用 BERT 作為 word-level features 本身並不需要很大的計算資源,即使要 fine-tune BERT,也沒有想象中的那麽複雜。作為小團隊,反而能抓住機會,利用這個優勢,不再去糾結 text encoding 的部分,而可以把關注點更多地放在對特定任務、領域的設計上

其實解決任何一個具體的 task 的過程都可以看做是把 universal, domain-general text representation 降維到 task-specific space 的過程,現在只不過是 universal representation 變得更強了,從邏輯上並不影響我提出新的解決方案,吧?

不過確實,BERT 在很多任務上的突破也讓人開始思考,什麽才是更有意義的任務以及更有意義的測評方法?其實很多 dataset 在創建初期就有很多缺陷,很多測評標準也是當時的無奈之舉。現在 SOTA 的分數很高,但並不能完全說明在這些經典任務就沒有可以突破的地方了。比如在放在 limited labeled data 的 setting 下,transfer learning (domain/language adaptation), weak-supervision, few-shot learning 等不同的學習場景還是有很大的發展空間。

我個人比較關注的是這樣幾個話題:

需要外部知識的(推理)任務。這種任務的核心的難點在於,如何在外部知識庫中快速檢索相關的知識,並有效地、可解釋地應用在模型中,比如常識推理和科學問答。

常識推理

在一些數據集比如 WSC, SWAG 上面,基於 BERT/GPT 的方法已經可以擬合的很好了,但是我個人還是覺得這是因為 dataset 本身的 bias 比較大,以及評測的方法太過膚淺導致的。雖然 BERT, GPT-1/2 可以通過海量預料來通過語感來掌握常識,但是這種不可控的方式並不應該是解決常識推理的所期望的人工智能發展的方向。

如何將常識知識引入到神經網絡這一問題從去年開始一直不斷有很多人在提出新的方案,但是由於沒有統一的 benchmark,基本上都是在各說各話。尤其是有一篇搞笑的 AAAI19,一套拳腳下來做的還沒有 base model 好,但卻在 paper 裡隻 report 自己實現的(較低的)效果當做基線而非官方 report 的數字,誤導讀者。 總之,我覺得常識推理還是非常有潛力的一個方向,AI2 也在一直推進,可以關注一下他們的 dataset,比如 ATOMIC 這種關注社交常識的知識庫也很有趣。

科學問答 (ARC dataset, OpenBookQA, etc.)

目前 ARC challenge 上面即使是 BERT 的效果也表現平平,離人類的表現還有一段距離。

如何提高問答系統的解釋性,也是難以直接套預訓練的模型來解決的。

模型可解釋性

老調常談的問題。核心還是在於測評 (no evaluation, no research),如何設計一個指標衡量一個模型的可解釋性?AI2 的 VCR dataset 給了一個比較簡單有效的方案,在傳統的多選題類型 QA 任務上加上一個對於正確選項的正確解釋的選擇題。如果我們要求模型在兩個任務上都答對,則同時衡量了模型的正確性和可解釋性。不過似乎應該有更複雜的方式。

更新穎、綜合的實驗分析方式。印象比較深的還 ACL18 有一篇 evaluate KGE 的 paper,主旨就是告訴讀者為什麽一些 model 比另外一些好,非常可視化地從幾何學角度做了各個 model 的分析。NLP 畢竟還是實驗科學,太多 paper 就糾結在幾個 metric 的數字比大小,其實是非常不可取的。

社交媒體裡的 nlp 問題

很多數據集都是基於 wiki 或 news article 等正式文本來構建的,然而很多重要的新信息與新知識都來自於社交媒體。

social media messages 裡面的噪音,以及修飾成分的理解(比喻、幽默、昵稱等),都是有趣且現實的問題,有更多的利用語言學知識的可能性。

從應用回歸理論

作者:駱梁宸

鏈接:https://www.zhihu.com/question/312388163/answer/600675412

2018 —— 是我蹭卡的一年。

「資源有限的個人」用來形容去年的我是很貼切的(今年也很貼切…)。很好理解,一個才入圈的新人本科實習生,不論在(國內的)哪裡都很難要得到多少計算資源。這一年來的絕大部分工作都是在精打細算下完成的,這些經驗也許可以拿來參考參考。

正式回答前的吐槽:

隨著 BERT, GPT-2 的出現,NLP 領域的很多問題可以被基於語言模型的超大模型突破。

BERT 不是語言模型,人家是 Encoder,全稱是 Bidirectional Encoder Representations from Transformers,它只是用了 LM 做其中一個 pre-train. 很多人會一起提 BERT 和 GPT,但是這兩個的區別其實挺大的(指 paper,不單指架構;包括 training 思路和解決的 benchmark 等等),並不是很多人以為的只是單向和雙向的區別。BERT 的文章裡也並沒有在生成任務上做 evaluation.

當然這個回答不是想討論這個的,不展開。

題主在問的「我們還能在哪些方面做出突出的工作」,講道理這個問題很難被完美的回答(不然答主們早就自己去挖坑填坑了),我隻講講自己的實踐,舉些例子。

1. 定義新的任務;發布新的數據集

隨著人工智能的進步,財務工作者會大批失業麽?該如何應對?

https://www.zhihu.com/question/54750621/answer/531379182

比如這個,定義問題和構造數據集永遠是常青樹,和算力無關。

2. 在 Rising Topic 上做出 SoTA

駱梁宸:新的一年,想發有關對話系統的 paper?快關注時下最大熱點:智能化與個性化

https://zhuanlan.zhihu.com/p/55854304

比如這個,幸運的(在小老闆毒辣的眼光下)選對了一個逐漸變熱的 subtrack —— 還沒有形成紅海,競爭者還沒多起來,任務本身有潛力 —— 需要眼光好(跟大佬跟的快),速度快(扎實的調參和燒香技巧),俗稱填坑。

3. 給出好的 Insight

比如我第一篇中的小 paper,baseline 賊不 fancy(生成任務裡只有 RNN 沒有 Transformer,當然這是篇 short 也有關係),但新模型夠巧妙,別人看了插圖能有「wow」的感覺,並不要求 SoTA. 鏈接不放了,第一篇有點水……

---

這些例子成立的條件是建立在對「突出」的定義並不是特別高的基礎上 —— 如果「突出」是指可以在頂會(ACL 三大會 + 若乾 ML/DL 頂會)發 paper 的話,那還是可以的。但我最近經常反思的是,這些思路下產出的工作偏水的概率比較大。如果想要做 decent work 的話,需要想辦法再進一步。

但怎麽做出高價值的工作,這其實是科研領域的終極問題了,我也實在不敢妄言,也才剛剛走在求索的道路上而已。一個簡單直觀的出發點是:

4. 從應用回歸理論

搭搭模型 刷 SoTA 水一篇 paper 的模式在近一段時間把整體氛圍搞的很不好。在看 paper 的時候能明顯的感受到近年來的頂會 paper 水分明顯增多,很難再在 NLP 文章裡看到對模型為什麽 work 的足夠深刻的解釋和剖析,更遑論理論層面的探討。

在做了幾個應用問題之後其實很好發現,許多任務在現有模型下有明顯的瓶頸,靠修修補補是沒法真正深入下去的。那與其搭積木灌水,我們不如更多的嘗試打破藩籬,解決更 fundamental 的問題。自己也是剛剛在往這條道路上嘗試,比如

Adaptive Gradient Methods with Dynamic Bound of Learning Rate

(參考閱讀:

北大95後學霸親述:AI新算法媲美SGD,這是我第一次研究優化方法

這其實不是篇 NL paper,是講優化算法的 —— 但它可以用 CV 和 NLP 來做 evaluation. 它對算力不足人士很友好,基本只需要一杆筆和一摞草稿紙就夠了。實際上這也是我入坑一年來第一次感到做出勉強讓自己滿足的工作 —— 標準就是,能不能廣泛的讓其他人可以方便的、大量的參考或使用你提出的方法。一個可以穩定 outperform 掉 SGD 和 Adam 的新的 Optimizer,在我心目中基本上滿足這個要求了。

---

例子舉完了,最後隨便聊聊。

這個知乎問題之所以存在,根源還是我們太看重 State of The Art 了。沒有算力完全不會擋住我們想象力的大門,科研工作的意義也遠遠不止表格最後那一行標粗的數字。文章的 baseline 設置也不必要一定是當前的 SoTA,只要合理設置,能夠科學的體現新提出的方法的意義就是可以接受的。事實上,2018 的進展除了大力出奇跡的 BERT 們,還有很多小而美的工作,比如 Stanford 那篇 embedding size 的評估方法,比如一系列 Neural ODE(話說我最近常常在想@2prime 的 linear multi-step 有沒有辦法改進下 Transformer 的結構加進去)。

誠然,浮躁的風氣和逐年下降的 reviewer 質量有關(比如混進了我這樣的大學生 reviewer,霧),許多唯結果論的苛刻評論讓我們苦不堪言。

但總有正能量不是麽?(盜圖自 Hao Peng 大神票圈)

來源:知乎

問題鏈接: https://www.zhihu.com/question/312388163

著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請注明出處

更多閱讀

【加入社群】

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備注(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)

獲得更多的PTT最新消息
按讚加入粉絲團