Quoc V.Le、何愷明等新論文；用進化算法設計爐石

機器之心整理

參與：杜偉、一鳴

本周較為重要的研究有 Quoc V. Le 和何愷明各自在 ImageNet 上的新研究。同時 Keras 之父 François Chollet 針對智能水準的評價方法提出了自己的定義和基準。此外還有一些有趣的研究，如在股票預測任務上對比神經網絡性能，以及使用進化算法設計爐石傳說遊戲等。

Self-training with Noisy Student improves ImageNet classification

A Comparative Analysis of XGBoost

Momentum Contrast for Unsupervised Visual Representation Learning

Deep Learning for Stock Selection Based on High Frequency Price-Volume Data

Evolving the Hearthstone Meta

The Measure of Intelligence

Emerging Cross-lingual Structure in Pretrained Language Models

論文 1：Self-training with Noisy Student improves ImageNet classification

作者：Qizhe Xie、Eduard Hovy、Minh-Thang Luong、Quoc V. Le

論文鏈接：https://arxiv.org/pdf/1911.04252.pdf

摘要：在本文中，研究者首先在標注的 ImageNet 圖像上訓練了一個 EfficientNet 模型，然後用這個模型作為老師在 3 億無標簽圖像上生成偽標簽。然後研究者訓練了一個更大的 EfficientNet 作為學生模型，使用的數據則是正確標注圖像和偽標注圖像的混合數據。這一過程不斷迭代，每個新的學生模型作為下一輪的老師模型，在生成偽標簽的過程中，教師模型不會被噪聲干擾，所以生成的偽標注會盡可能逼真。但是在學生模型訓練的過程中，研究者對數據加入了噪聲，使用了諸如數據增強、dropout、隨機深度等方法，使得學生模型在從偽標簽訓練的過程中更加艱難。這一自訓練模型，能夠在 ImageNet 上達到 87.4% 的 top-1 精確度，這一結果比當前的 SOTA 模型表現提高了一個點。除此之外，該模型在 ImageNet 魯棒性測試集上有更好的效果，它相比之前的 SOTA 模型能應對更多特殊情況。

表 1：Noisy Student 方法和之前 SOTA 模型指標的對比結果。

表 2：Noisy Student 與之前 SOTA 模型在 ImageNet 上的 Top-1 與 Top-5 準確率，帶有 Noisy Student 的 EfficientNet 能在準確率與模型大小上取得更好的權衡。

推薦：ImageNet 上的圖像分類模型似乎已經成熟，要達到新的 SOTA 已經非常難。但是，Quoc Le 等在本文中提出的 Noisy Student 方法在這一數據集上再次提高了 SOTA 性能一個點，而且這一方法讓模型在魯棒性上也有很大的提升。

論文 2：A Comparative Analysis of XGBoost

作者：Candice Bentéjac、Anna Csörgő、Gonzalo Martínez-Muñoz

論文鏈接：https://arxiv.org/pdf/1911.01914v1.pdf

摘要：XGBoost 是一項基於梯度提升可擴展集合技術，在解決機器學習難題方面是可靠和有效的。在本文中，研究者對這項新穎的技術如何在訓練速度、泛化性能和參數設置方面發揮作用進行了實證分析。此外，通過精心調整模型和默認設置，研究者還對 XGBoost、隨機森林和梯度提升展開了綜合比較。結果表明，XGBoost 在所有情況下並不總是最佳選擇。最後，他們還對 XGBoost 的參數調整過程進行了擴展分析。

圖 1：隨機森林、梯度提升和 XGBoost 的正常網格搜索中的默認值以及每個參數的可能值。

表 2：默認和參數調整設置下隨機森林、梯度提升和 XGBoost 的平均準確度和標準偏差。

推薦：通過對隨機森林、梯度提升和 XGBoost 的綜合比較，來自法國波爾多大學、匈牙利帕茲曼尼·彼得天主教大學以及馬德裡自治大學的三位研究者得出結論：從調查問題的數量看，梯度提升是最好的分類器，但默認參數設置下 XGBoost 和隨機森林在平均排名（average rank）方面的差異不具備統計顯著性。

論文 3：Momentum Contrast for Unsupervised Visual Representation Learning

作者：Kaiming He、Haoqi Fan、Yuxin Wu、Saining Xie、Ross Girshick

論文鏈接：https://arxiv.org/pdf/1911.05722.pdf

摘要：在無監督的視覺表征學習上，近來的一些研究通過使用對比損失（constrative loss）的方法取得了不錯的效果。這些方法都可以被認為和動態詞典（dynamic dictionary）相關。在詞典中，鍵（token）是通過從數據（如圖像等）中進行采樣得到的，然後使用一個編碼器網絡轉換為表征。無監督學習則訓練編碼器，用於詞典的查找工作，即一個編碼的「查詢（query）」應該和與之匹配的鍵相似，與其他鍵不相似。這樣的一個學習過程可以被構建為減少對比損失。在本次研究中，何愷明等研究者提出了一種名為動量對比（Momentum Contrast，簡稱 MoCo）的方法。這種方法旨在通過對比損失為無監督學習建立大型、一致的詞典（如下圖 1 所示）。研究者將詞典維護為一個數據樣本隊列：當前 mini-batch 編碼表征將進入隊列，而最老的將退出隊列。該隊列將詞典大小與 mini-batch 大小解耦，從而允許詞典變大。此外，由於詞典鍵來自前面的幾個 mini-batch，因此研究者提出使用一個緩慢前進的鍵編碼器，作為基於動量的查詢編碼器的移動平均值，以保持一致性。

圖 1.MoCo 通過使用對比損失將一個已編碼的查詢 q 與一個已編碼的鍵詞典進行匹配來訓練一個視覺表征編碼器。詞典鍵是由一組數據樣本動態定義的。

表 1：在 ImageNet 數據集上，MoCo 與其他方法在線性分類評價標準下的對比結果。

推薦：Facebook AI 研究團隊的何愷明等人提出了一種名為動量對比（MoCo）的無監督訓練方法。在 7 個與檢測和分割相關的下遊任務中，MoCo 可以超越在 ImageNet 上的監督學習結果，在某些情況下其表現甚至大大超越後者。作者在摘要中寫道：「這表明，在許多視覺任務中，無監督和監督表征學習之間的差距已經在很大程度上被消除了。」

論文 4：Deep Learning for Stock Selection Based on High Frequency Price-Volume Data

作者：Junming Yang、Yaoqi Li、Xuanyu Chen、Jiahang Cao、Kangkang Jiang

論文鏈接：https://arxiv.org/pdf/1911.02502v1.pdf

摘要：為股票選擇訓練一個實用和有效的模型已經成為人工智能領域廣受關注的問題。由於金融市場本身的不穩定性和敏感性，重大事件、社會經濟狀況或者政治動亂等諸多因素都可能對股價造成影響。很多學者已經嘗試運用不同的機器學習方法，以找到擬合具有非線性、不連續性和高頻多項式組件的股價時序數據的模型。為了處理這些複雜的組件並做出精準預測，大量的學者選擇使用機器學習來創建模型。在本文中，研究者運用深度學習神經網絡來構建長短期記憶（LSTM）和卷積神經網絡（CNN）模型，以預測當日股票的預期收益率並通過採用適當策略來最大化總收益。

推薦：研究者詳細分析了 LSTM 和 CNN 模型的性能，並驗證了它們在預測股價方面的有效性和合理性。他們得出了以下結論：雖然這兩種模型克服了股價預測中的一些難題，但在避免不必要的交易費用等方面依然有提升空間。

論文 5：Evolving the Hearthstone Meta

作者：Fernando de Mesentier Silva、Rodrigo Canaan、Scott Lee 等

論文鏈接：https://arxiv.org/pdf/1907.01623v1.pdf

摘要：在《爐石傳說》這樣的高複雜性策略遊戲中，保持角色的平衡是一項困難的任務。遊戲中策略的多樣化和定製化將衍生微妙複雜的遊戲系統。在不破壞當前環境的情況下通過調整 2000 多張卡片來達到預期遊戲效果非常困難。在本文中，來自紐約大學遊戲創新實驗室（Game Innovation Lab）、新澤西理工學院吳鷹計算機學院以及其他幾位獨立研究者探討了《爐石傳說》中現有卡牌的變換對遊戲策略的影響。在這項研究中，研究者們分析了不同策略下不同牌組之間互相攻防的勝率，然後提出對發生變換之前和之後的表現進行比較，從而提升或削弱不同的卡牌。之後，借助於進化算法，研究者探索牌組之間勝率同為 50% 時卡牌屬性出現哪些組合變換。因此，他們接著將使用的進化算法擴展到多目標解決方案，同時對現有卡牌做出最小程度的變換，從而盡可能不影響遊戲整體。最後，他們提出並評估了一些指標，從而得出哪些卡牌實現了預期的平衡變換。

爐石傳說的遊戲界面。

12 個牌組在一萬場對決中的比賽結果。

推薦：遊戲的角色設計是一大學問，我們希望不同角色各有特色，但總體又是平衡的。但之前爐石等遊戲，總會有玩家能鑽遊戲設計的空子，他們能找到強於其它組合的陣容，並發展成一套簡單高效的策略。現在，進化算法也能用來評估角色屬性的平衡了，用 AI 來設計遊戲，說不定能大大提升可玩性。

論文 6：The Measure of Intelligence

作者：François Chollet

論文鏈接：https://arxiv.org/abs/1911.01547

摘要：為了推動智能和類人人工系統的研究，本文作者認為，我們需要遵循一種合適的反饋信號：相關研究需要能夠定義並評價智能——以和人類對比智能水準的方式對比兩種系統。在過去一百年裡，已經有許多相關的嘗試和研究，包括心理學和人工智能方面的。作者在本文中總結並批判性地評價了這些方法，並說清楚了歷史上已經在引導研究的兩種概念。作者表示，在實踐中，當前的 AI 社區依然沉溺於對比基準智能水準——即通過對比 AI 和人類在特定任務上的表現來衡量智能水準。本文研究者表示，僅僅對給定任務進行單一評價是不能衡量智能水準的。因為技能實際上高度依賴先驗知識和經驗，而無限制的先驗知識或數據僅能夠「買到」不穩定的技能水準，同時掩蓋了系統本身的泛化能力。

隨後，作者在文中構建了一個新的關於智能的定義，基於算法上的信息理論。這一理論將智能定義為一種獲得技能的效率，同時關注獲得技能的多少、泛化的困難程度、先驗知識和經驗。通過使用這種定義，作者提出了一系列指導理論，用於說明通用人工智能評價基準應該是什麽樣的。最後，作者提出了一個符合這一定義的基準，名為 Abstraction and Reasoning Corpus (ARC)。ARC 基準基於一系列清晰的先驗知識，這些先驗知識設計得足夠像人類先驗。作者認為，ARC 可以被用來評價類人的通用動態智能系統，同時它可以對人和人工智能系統的智能程度進行公平的評價。

推薦：本文是 Keras 作者的一篇長文。文章批判了當前的評價標準並論證和提出了一個新的基準。這一針對類人人工智能的評價體系也許可以直到更為泛化的 AI 系統設計和測試工作。

論文 7：Emerging Cross-lingual Structure in Pretrained Language Models

作者：Shijie Wu、Alexis Conneau、Haoran Li、Luke Zettlemoyer、Veselin Stoyanov

論文鏈接：https://arxiv.org/pdf/1911.01464.pdf

摘要：在本文中，研究者探究了多語掩模語言建模，即在多語言串聯文本中訓練單個模型，並且詳細研究了影響這些模型對跨語言遷移發揮有效作用的幾個因素。研究表明，與先前做出的假設不同，即使語料庫之間不存在相同的詞匯或者文本領域截然不同，這種跨語言遷移依然是可能實現的。唯一的要求是頂層多語言編碼器中有一些共享的參數。為了更好地理解這個結果，研究者還證明了不同語言中獨立訓練模型的表征可以實現高效地對齊，這強烈說明了正如非上下文詞匯嵌入一樣，學習到的嵌入空間中存在普遍的潛在對稱性。對於多語掩碼語言建模而言，這些對稱性似乎可以在聯合訓練過程中自動發現和對齊。

推薦：這篇來自約翰·霍普金斯大學和 Facebook AI 的論文說明了不同語言在潛在語義表征結構上具有相似性的特點。同時，它也說明了多語言的預訓練語言模型可以在遷移學習發揮作用的原理。這篇論文對於發掘通用語言表征的研究具有參考價值。