NAACL 2019最佳論文揭曉谷歌BERT獲最佳長論文

機器之心報導

參與：路雪、張倩

NAACL 是自然語言處理領域的盛會，NAACL 2019 將於 6 月 2 日-7 日在美國明尼阿波利斯市舉行。據官方統計，NAACL 2019 共收到 1955 篇論文，接收論文 424 篇，錄取率僅為 22.6%。其中長論文投稿 1198 篇，短論文 757 篇。

剛剛，大會放出了本屆會議的最佳論文，谷歌 BERT 論文獲得最佳長論文獎項。

以下是機器之心對獲獎論文的摘要介紹，其中最佳可解釋 NLP 論文還未公開。

最佳專題論文（Best Thematic Paper）

What's in a Name? Reducing Bias in Bios Without Access to Protected Attributes

作者：Alexey Romanov, Maria De-Arteaga, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, Anna Rumshisky and Adam Kalai（CMU、微軟研究院、領英）

論文鏈接：https://128.84.21.199/abs/1904.05233

摘要：越來越多的研究提出了減少機器學習系統中偏見的方法。這些方法通常依賴於對受保護屬性（如人種、性別或年齡）的獲取。然而，這引發了兩大問題：1）受保護的屬性可能無法獲取或不能合法使用；2）通常需要同時考慮多個受保護屬性及其交集。為了減少職業分類中的偏見，本文作者提出了一種可以抑製某人真實職業預測概率與其姓名詞嵌入之間關係的方法。

該方法利用了編碼在詞嵌入中的社會偏見，消除了對受保護屬性的需要。重要的是，該方法僅在訓練時需要獲取人名，部署時並不需要。作者使用一個大型的在線傳記數據集評估了該方法的兩種變體，發現二者都能同時減少種族和性別偏見，而且幾乎不降低分類器的真正率（true positive rate）。

最佳可解釋 NLP 論文

CNM: An Interpretable Complex-valued Network for Matching

作者：Qiuchi Li, Benyou Wang and Massimo Melucci

該論文暫未放出

最佳長論文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova（谷歌 AI）

論文鏈接：https://arxiv.org/pdf/1810.04805.pdf

摘要：本文介紹了一種新的語言表征模型

BERT

，意為來自 Transformer 的雙向編碼器表征（Bidirectional Encoder Representations from Transformers）。與最近的語言表征模型（Peters et al., 2018; Radford et al., 2018）不同，BERT 旨在基於所有層的左、右語境來預訓練深度雙向表征。因此，預訓練的 BERT 表征可以僅用一個額外的輸出層進行微調，進而為很多任務（如問答和語言推斷任務）創建當前最優模型，無需對任務特定架構做出大量修改。

BERT 的概念很簡單，但實驗效果很強大。它刷新了 11 個 NLP 任務的當前最優結果，包括將 GLUE 基準提升至 80.4%（7.6% 的絕對改進）、將 MultiNLI 的準確率提高到 86.7%（5.6% 的絕對改進），以及將 SQuAD v1.1 的問答測試 F1 得分提高至 93.2 分（提高 1.5 分）——比人類表現還高出 2 分。

BERT、OpenAI GPT 和 ELMo 的預訓練模型架構對比。

最佳短論文

Probing the Need for Visual Context in Multimodal Machine Translation

作者：Ozan Caglayan, Pranava Madhyastha, Lucia Specia and Lo?c Barrault（勒芒大學、帝國理工學院）

論文鏈接：https://arxiv.org/abs/1903.08678

摘要：當前關於多模態機器翻譯（MMT）的研究表明，視覺模態要麽是非必需的，要麽作用有限。本文作者假設這是因為該任務唯一可用數據集 Multi30K 使用的句子太簡單、簡短和重複，這些語句將源文本渲染為充分的語境。然而，通常情況下，我們認為可以將視覺和文本信息結合起來，以實現基礎翻譯（ground translation）。

本文通過系統的分析來探討視覺模態對當前最佳 MMT 模型的貢獻，分析時作者部分地刪除了源文本語境，使模型無法接收到完整的文本。結果表明，在有限的文本語境下，模型能夠利用視覺輸入生成更好的翻譯結果。當前的研究認為視覺模態對 MMT 模型來說並不重要，要麽是因為圖像特徵的質量，要麽是因為將它們整合進模型的方式，但本研究顛覆了這一看法。

最佳資源論文

CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

作者：Alon Talmor, Jonathan Herzig, Nicholas Lourie and Jonathan Berant（以色列特拉維夫大學、艾倫人工智能研究所）

論文鏈接：https://arxiv.org/abs/1811.00937

摘要：人們通常利用豐富的世界知識和特定語境來回答問題。近期研究主要聚焦於基於關聯文檔或語境來回答問題，對基礎知識幾乎沒有要求。為了研究使用先驗知識的問答，我們提出了一個關於常識問答的新型數據集 CommonsenseQA。為了捕捉關聯之外的常識，我們從 ConceptNet (Speer et al., 2017) 中抽取了多個目標概念，它們與某個源概念具備同樣的語義關係。

我們讓眾包工人編寫提及源概念的選擇題，並區分每個目標概念之間的差別。這鼓勵眾包工人編寫具備複雜語義的問題，而問答這類問題通常需要先驗知識。我們通過該步驟創建了 12,247 個問題，並用大量強基線模型做實驗，證明該新型數據集是有難度的。我們的最優基線基於 BERT-large (Devlin et al., 2018)，獲得了 56% 的準確率，低於人類準確率（89%）。

構建 CommonsenseQA 數據集的過程示例。

表 5：所有模型的測試集準確率。

NAACL 論文接收列表：https://naacl2019.org/program/accepted/

NAACL 2019最佳論文揭曉 谷歌BERT獲最佳長論文

NAACL 2019最佳論文揭曉谷歌BERT獲最佳長論文