顏水成、黃亮等新論文；目標檢測最新SOTA；NLP全面綜述

機器之心整理

參與：一鳴、杜偉

本周論文有：顏水成團隊的「PSGAN 一鍵上妝」，黃亮團隊在同傳任務的集束搜索上進行了一些改進，同時還有 NLP 相關綜述、目標檢測最新 SOTA 成果、數字在詞嵌入中的處理研究等。

A Survey of the Usages of Deep Learning in Natural Language Processing

CBNet: A Novel Composite Backbone Network Architecture for Object Detection

A Comparative Study on Transformer vs RNN in Speech Applications

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

Speculative Beam Search for Simultaneous Translation

論文 1：A Survey of the Usages of Deep Learning in Natural Language Processing

作者：

Daniel W. Otter、Julian R. Medina、Jugal K. Kalita

論文鏈接：

https://arxiv.org/pdf/1807.10854v2

摘要：過去數年，深度學習模型的爆炸式使用推動了自然語言處理領域的發展。在本文中，研究者簡要介紹了自然語言處理領域的基本情況，並概述了深度學習架構和方法。然後，他們對近來的研究進行了篩選，對大量相關的文獻展開總結。除了諸多計算機語言學的應用之外，研究者還分析研究了語言處理方面的幾個核心問題。最後他們討論了當前 SOTA 技術和方法並對該領域未來的研究提出了建議。

論文中總結的 Transformer 架構。a）有四個編碼器和四個解碼器的 Transformer 塊；b）編碼器的架構，包括一個自注意力層（黃色）和一個前饋網絡（綠色）；c）解碼器架構，包括自注意力層（黃色）、注意力編碼-解碼層（紫色）和前饋網絡（綠色）。

推薦：自然語言處理進展到哪一步了？本文全面綜述了當前自然語言處理領域的研究進展，並探討了不同 NLP 任務下的研究情況、SOTA 技術，並討論了未來的研究方向。

論文 2：CBNet: A Novel Composite Backbone Network Architecture for Object Detection

作者：Yudong Liu、Yongtao Wang、Siwei Wang、TingTing Liang、Qijie Zhao、Zhi Tang、Haibin Ling

論文鏈接：https://arxiv.org/pdf/1909.03625v1.pdf

摘要：在現有的 CNN 檢測器中，主乾網絡是特徵提取的重要組件，檢測器的性能很大程度上依賴於主乾網絡。近日，來自北京大學王選計算機研究所和紐約州立大學石溪分校的研究者發表了一篇論文：基於現有主乾網絡（如 ResNet 和 ResNeXt）構建更加強大的新型主乾網絡，從而實現更好的檢測性能。具體而言，研究者提出一種集成多個同樣主乾網絡的新策略，即通過鄰近主乾網絡之間的組合連接（composite connection）構建一個更強大的主乾網絡——Composite Backbone Network (CBNet)。CBNet 迭代地將前一個主乾網絡的輸出特徵（即高級特徵）輸入到下一個主乾網絡中，逐步進行一直到最後一個主乾網絡（Lead Backbone）的特徵圖，然後使用該特徵圖進行目標檢測。研究表明，CBNet 可以輕鬆整合到當前最優的檢測器，並大幅提升性能。例如，它將 FPN、Mask R-CNN 和 Cascade R-CNN 在 COCO 數據集上的 mAP 提升了 1.5%-3.0%。同時，實驗結果證明，CBNet 還可以提升實例分割結果：簡單地將 CBNet 集成到基線檢測器 Cascade Mask R-CNN，即可實現單個模型在 COCO 數據集上的新 SOTA 結果（mAP 達到 53.3），這表明 CBNet 架構非常有效。

CBNet 架構圖示。

推薦：目標檢測已經是一個非常成熟的領域了，而能夠在這一任務上刷新 SOTA 成果非常不易。這篇來自北大和紐約大學石溪分校的論文說明，整合多個主乾網絡便能刷新最佳效果。

論文 3：AComparative Study on Transformer vs RNN in Speech Applications

作者：Shigeki Karita、Nanxin Chen、Tomoki Hayashi、Takaaki Hori、Hirofumi Inaguma 等

論文鏈接：https://arxiv.org/pdf/1909.06317v1.pdf

摘要：Seq2seq 模型已廣泛應用於自動語音識別（ASR）、語音轉換（ST）以及文字轉語音（TTS）等端到端語音處理中。本文著重講述序列到序列模型 Transformer，它在神經機器翻譯（NMT）和其他自然語音處理應用中實現了當前 SOTA 性能。研究者深入研究並在 15 個 ASR、1 個多語言 ASR、1 個 ST 和 2 個 TTS 基準上分析比較了 Transformer 和循環神經網絡（RNN）。實驗揭示了每項任務上利用 Transformer 獲得的不同訓練技巧和顯著的性能優勢，其中包括第 13 個 ASR 基準上 Transformer 所表現出來的巨大優越性。通過使用開放資源和公開可用的數據集，研究者還準備推出 Kaldi 風格的可複現方法，以應用於所有的 ASR、ST 和 TTS 任務，使得社區可以延續他們的研究成果。

推薦：語音識別領域一直在應用最新的 Seq2seq 模型，但是哪一種架構是最好的呢？本文對比了 Transformer 和 RNN 兩大在語音識別領域的應用廣泛的架構，並得出了最終的結論。本文適合入門語音識別領域的讀者了解序列模型的應用。

論文 4：Do NLP Models Know Numbers? Probing Numeracy in Embeddings

作者：Eric Wallace、Yizhong Wang、Sujian Li、Sameer Singh、Matt Gardner

論文鏈接：https://arxiv.org/pdf/1909.07940.pdf

摘要：理解和處理數字（識數）的能力對於很多複雜的推理任務來說至關重要。目前，大多數自然語言處理模型處理文本中數字的方式與其他 token 一樣，將這些數字作為分布式向量嵌入。這種處理方法足以捕捉數字嗎？在本文中，研究者首先研究了 DROP 數據集上 SOTA 問答模型的數字推理能力，發現該模型擅長處理需要數字推理的問題，也就是說它已經能夠捕捉數字。為了解這種能力是如何獲取的，研究者在綜合列表最大值（synthetic list maximum）、數字解碼和 jiafa 任務上對 token 嵌入方法（如 BERT、GloVe 等）進行測試。例如，GloVe 和 word2vec 可以準確編碼多達 1000 個數字。字元級嵌入甚至更加準確，其中在所有預訓練方法中，ELMo 的數字捕捉能力最強大，而使用字詞單元的 BERT 模型準確性不如 ELMo。

研究者訓練了一個 probing model，基於詞嵌入對 [-500, 500] 區間內隨機 80% 的整數進行數字解碼，如「71」 71.0。

推薦：一直不知道詞嵌入是怎麽處理數字的？這篇論文使用因果推理任務還原了數字字元在詞嵌入模型中的被處理的方法，說明詞嵌入對於數字的處理同樣可行，不論是整數還是浮點數。

論文 5：HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

作者：Sharon Zhou、Mitchell L. Gordon、Ranjay Krishna、Austin Narcomey、Li Fei-Fei、Michael S. Bernstein

論文鏈接：https://arxiv.org/pdf/1904.01121.pdf

摘要：生成模型通常利用人工測評來衡量其輸出結果的感知質量。自動度量是伴有噪聲的間接代理，因為這些度量依托啟發式或預訓練嵌入。但直到現在，直接的人工測評策略都是針對特定領域，既沒有實現標準化，也沒有經過驗證。來自史丹佛大學的研究者們為生成實時性（generative realism）構建了一個通用的人工測評基準，將其命名為人眼感知評價（human eye perception evaluation，HYPE），具有以下特徵：（1）基於感知的心理物理學研究，（2）對同一模型隨機采樣輸出的不同集合均表現出可靠性，（3）能夠分離模型性能，（4）節省成本和時間。此外，他們提出了兩種變體：一種是在自適應時間約束下測量視覺感知，以確定模型輸入顯示為真實時的閾值；另一種是成本較低的變體，其能夠在無時間約束的情況下測量真假圖像上的人為誤差率。通過使用 CelebA、FFHQ、CIFAR-10 和 ImageNet 四個數據集，研究者們圍繞有條件和無條件圖像生成領域的 6 種當前 SOTA 生成對抗網絡和 2 種采樣方法對 HYPE 進行測試，發現 HYPE 可以追蹤模型之間的相對改進，並通過自助采樣法（bootstrp sampling）確定這些測量結果是一致和可複現的。

推薦：來自史丹佛大學研究者的這項成果為人眼評價生成模型效果提出了量化標準，適合相關研究者參考這一評價體系。

論文 6：PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

作者：Wentao Jiang、Si Liu、Chen Gao、Jie Cao、Ran He、Jiashi Feng、Shuicheng Yan

論文鏈接：https://arxiv.org/pdf/1909.06956.pdf

摘要：在遷移學習領域，有一個任務名為妝容遷移（makeup transfer），即將任意參照圖像上的妝容遷移到不帶妝容的源圖像上。很多人像美化應用都需要這種技術。近來的一些妝容遷移方法大都基於生成對抗網絡（GAN）。它們通常採用 CycleGAN 的框架，並在兩個數據集上進行訓練，即無妝容圖像和有妝容圖像。但是，現有的方法存在一個局限性：只在正面人臉圖像上表現良好，沒有為處理源圖像和參照圖像之間的姿態和表情差異專門設計模塊。另外，它們也不能在測試階段直接用於部分妝容遷移，因為它們無法以可感知空間的方式提取妝容特徵。為了克服這些問題以更好地服務真實世界場景，顏水成團隊提出了一種全新的姿態穩健型可感知空間式生成對抗網絡（PSGAN）。這種 PSGAN 主要分為三部分：妝容提煉網絡（MDNet）、注意式妝容變形（AMM）模塊和卸妝-再化妝網絡（DRNet）。研究者認為，這三種新提出的模塊能讓 PSGAN 具備上述的完美妝容遷移模型所應具備的能力。

PSGAN 的結果。該模型可讓用戶控制所要遷移的濃淺程度和圖像區域。第一行左側是僅遷移參照圖像的部分妝容風格的結果，第二行左側則是不同濃淺程度的結果。此外，PSGAN 也能應對圖像之間不同的姿態和表情，如圖右側所示。

如圖展示了 PSGAN 的框架，其可分為三部分：妝容提煉網絡（MDNet）、注意式妝容變形（AMM）模塊、卸妝-再化妝網絡（DRNet）。

推薦：顏水成團隊的這篇論文是 GAN 的一種最新的應用，為我們提供了一種遷移化妝的方法。也許以後再也不需要試試才知道化妝效果了，AI 一鍵生成，效果拔群。

論文 7：Speculative Beam Search for Simultaneous Translation

作者：Renjie Zheng、Mingbo Ma、Baigong Zheng、Liang Huang

論文地址：https://arxiv.org/pdf/1909.05421v1.pdf

摘要：集束搜索是全句翻譯任務中廣泛使用的技術，但是同聲傳譯領域依然有很多問題。這是因為輸出的詞總是需要等待語句結束才能確定。特別是最近提出的「wait-k」方法是一個簡單而有效的解決方法，在起始等待後，在得到一個輸入詞的情況下確定一個輸出詞，但是這樣會使得集束搜索變得不可行。為了解決這一問題，研究者提出了一種名為「猜測式集束搜索」的算法，可以隱式地從目標語言模型中提前猜測後幾步的結果，用於獲得更準確的結果。

推薦：本文作者為百度的黃亮等，在同聲傳譯方面取得了新的進展。