谷歌推最新NLP模型XLNet，二十項任務完勝BERT

公開日: 2019-06-24

智東西（公眾號：zhidxcom）

編 | 趙佳蕊

導語：谷歌推出最新NLP模型XLNet在20個NLP任務中勝過了BERT，並在18個任務中取得了當前最佳效果。

智東西6月24日消息，上周三，谷歌大腦和卡內基梅隆大學的一組研究人員推出了最新的AI模型XLNet，它在20個NLP（(Natural Language Processing）的任務中勝過了谷歌的BERT(Bidirectional Encoder Representations from Transform)，在18個任務中取得了當前最佳效果。BERT是谷歌的語言表示模型，用於無監督預訓練自然語言處理。

XLNet在幾個任務中的表現都優於BERT，包括7個GLUE語言理解任務，3個像SQuAD這樣的閱讀理解任務，以及7個文本分類（包括處理Yelp和IMDB數據集）的任務。與BERT相比，XLNet處理文本分類的錯誤率下降了16%。谷歌在2018年秋天開源了BERT，而真正令人激動的是， XLNet 已經開放了訓練代碼和大型預訓練模型。

一、用自回歸和自動編碼方法進行無監督預訓練

周三，六位作者共同在arXiv（文檔收錄網站）發布論文。文中表示，通過運用多種技術，XLNet利用了最好的自回歸和自動編碼的方法進行了無監督預訓練。

文章中指出，XLNet是一種廣義自回歸預訓練方法，通過使因子分解所有排列順序的可能性最大化，去學習雙向上下文，並且由於其自回歸性，來利用乘法法則對預測token（令牌，代表執行某些操作權利的對象）的聯合概率執行因式分解（factorize），這消除了 BERT 中的獨立性假設的局限。

二、融合自回歸模型 Transformer-XL 的思路

XLNet的名字來源於Transformer-XL，這是同一組研究人員於一月份發布的自回歸模型。為了實現節段遞歸機制和相關編碼方案，XLNet採用了Transformer-XL的預訓練方法。

同時，XLNet還借鑒了NADE（Neural Autoregressive Distribution Estimation）的訓練方法，這個模型是由Google DeepMind、Twitter和學術界的研究人員為NADE排列語言建模方法而創建的。

此前，微軟的AI研究人員在五月推出了多任務深層神經網絡（MT-DNN），這個模型和BERT結合之後，在許多GLUE（語言理解基準性能）任務上實現了更好的性能。目前，XLNet是最新的NLP模型，它的性能優於BERT，未來也許會有更好的應用。

論文地址：https://arxiv.org/pdf/1906.08237.pdf

開源代碼與預訓練模型：https://github.com/zihangdai/xlnet

文章來源：VentureBeat