每日最新頭條.有趣資訊

谷歌推最新NLP模型XLNet,二十項任務完勝BERT

智東西(公眾號:zhidxcom)

編 | 趙佳蕊

導語:谷歌推出最新NLP模型XLNet在20個NLP任務中勝過了BERT,並在18個任務中取得了當前最佳效果。

智東西6月24日消息,上周三,谷歌大腦和卡內基梅隆大學的一組研究人員推出了最新的AI模型XLNet,它在20個NLP((Natural Language Processing)的任務中勝過了谷歌的BERT(Bidirectional Encoder Representations from Transform),在18個任務中取得了當前最佳效果。BERT是谷歌的語言表示模型,用於無監督預訓練自然語言處理。

XLNet在幾個任務中的表現都優於BERT,包括7個GLUE語言理解任務,3個像SQuAD這樣的閱讀理解任務,以及7個文本分類(包括處理Yelp和IMDB數據集)的任務。與BERT相比,XLNet處理文本分類的錯誤率下降了16%。谷歌在2018年秋天開源了BERT,而真正令人激動的是, XLNet 已經開放了訓練代碼和大型預訓練模型。

一、用自回歸和自動編碼方法進行無監督預訓練

周三,六位作者共同在arXiv(文檔收錄網站)發布論文。文中表示,通過運用多種技術,XLNet利用了最好的自回歸和自動編碼的方法進行了無監督預訓練。

文章中指出,XLNet是一種廣義自回歸預訓練方法,通過使因子分解所有排列順序的可能性最大化,去學習雙向上下文,並且由於其自回歸性,來利用乘法法則對預測token(令牌,代表執行某些操作權利的對象)的聯合概率執行因式分解(factorize),這消除了 BERT 中的獨立性假設的局限。

二、融合自回歸模型 Transformer-XL 的思路

XLNet的名字來源於Transformer-XL,這是同一組研究人員於一月份發布的自回歸模型。為了實現節段遞歸機制和相關編碼方案,XLNet採用了Transformer-XL的預訓練方法。

同時,XLNet還借鑒了NADE(Neural Autoregressive Distribution Estimation)的訓練方法,這個模型是由Google DeepMind、Twitter和學術界的研究人員為NADE排列語言建模方法而創建的。

此前,微軟的AI研究人員在五月推出了多任務深層神經網絡(MT-DNN),這個模型和BERT結合之後,在許多GLUE(語言理解基準性能)任務上實現了更好的性能。目前,XLNet是最新的NLP模型,它的性能優於BERT,未來也許會有更好的應用。

論文地址:https://arxiv.org/pdf/1906.08237.pdf

開源代碼與預訓練模型:https://github.com/zihangdai/xlnet

文章來源:VentureBeat

獲得更多的PTT最新消息
按讚加入粉絲團