AlphaZero一周年：登上《科學》封面，完整論文首次公開

大數據文摘出品

作者：魏子敏、蔣寶尚

阿爾法元（AlphaZero）

誕生一周年之際，《自然（Science）》雜誌今天以封面文發布了阿爾法元（AlphaZero）經過同行審議的完整論文，Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。

具體來說，DeepMind公開了完整評估後的AlphaZero，不僅回顧、驗證了之前的結果，還補充了新的提升：除了圍棋，AlphaZero自學了另外兩種複雜棋類遊戲——國際象棋和日本將棋。

論文題目為《A general reinforcement learning algorithm that masters chess, shogi and Go through self-play》，一共32頁，從細節到參考文獻算法，都做了詳細介紹。

論文鏈接：

http://science.sciencemag.org/content/362/6419/1140

《Science》雜誌評價稱，能夠解決多個複雜問題的單一算法，是創建通用機器學習系統，解決實際問題的重要一步。

去年的12月7日，DeepMind的研究組宣布已經開發出一個更為廣泛的阿爾法元（AlphaZero）系統，可以訓練自己在棋盤，將棋和其他規則化遊戲中實現“超人”技能，所有這些都在一天之內完成，並且無需其他乾預，戰績斐然：

4個小時成為了世界級的國際象棋冠軍；

2個小時在將棋上達到世界級水準；

8個小時戰勝DeepMind引以為傲的圍棋選手AlphaGo Zero。

當時，還沒有經過同行評議的這篇論文首發在arxiv上，引發了人工智能界的重大探討。

https://arxiv.org/pdf/1712.01815.pdf

時隔一年，Science雜誌以封面發布了經過了同行評議、AlphaZero的最新進展和完整評估。同日，Deepmind也發布了一篇博文宣布這一消息：

今天我們很高興地發布了AlphaZero的完整評估，該評估發表在Science （開放訪問版本）雜誌上，該期刊確認並更新了這些初步結果。論文中描述了AlphaZero如何從了解規則開始訓練，並快速學習每個遊戲成為高級玩家。

博文中，Deepmind還請來了幾位AlphaZero的人類對手，比如，20年前，在“人機大戰”中被深藍打敗的前世界國際象棋冠軍加裡卡斯帕羅夫，描述了AlphaZero的棋術。

“我無法掩飾自己的滿足感，它非常有活力，就像我自己一樣！“

DeepMind博文鏈接：

https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

DeepMind提到，傳統的國際象棋引擎，包括20年前的深藍，多依賴於數千個強大的人類玩家輔助的規則，嘗試解釋遊戲中的所有可能性。Shogi程式也是為遊戲定製出來的，使用與國際象棋程式類似的搜索引擎和算法。

AlphaZero則採用了一種完全不同的方法，用深度神經網絡和通用算法取代了這些手工製作的規則。

不僅是國際象棋，這一方式適用於非常多複雜的遊戲。一個未經訓練的神經網絡可以通過強化學習的方式試驗，最終經過多次學習，在博弈中自己掌握這個遊戲：起初，它完全隨機下子走位，但隨著時間的推移，系統從勝利、失敗中學習，從而調整神經網絡的參數，不斷優化，直到找到最有利的選擇。

文章中提到，每個遊戲的難度不同，算法需要訓練的時間也不同，例如，系統的掌握象棋需只需訓練9個小時，圍棋需要的計算時間多一些，需要13天左右。

訓練有素的網絡用於指導搜索算法 - 稱為蒙特卡羅樹搜索（MCTS），以選擇遊戲中最有希望的移動。對於每一步，AlphaZero的搜索範圍是傳統國際象棋搜索中很小的部分。例如，在國際象棋中，它每秒僅需要搜索6萬個位置，相比之下，Stockfish需要搜索6千萬個位置。

當然，AlphaZero算法最大的意義在於，它不僅適用於“下棋”，這個算法的目標是希望能創建出一個智能系統，夠解決各種現實問題，另外，在適應環境方面具有靈活性。

靈活適用多環境任務是當前人工智能發展的一個挑戰，即只能在特定的領域有非常高的技能水準，如果將任務遷移之後，系統往往不適用了。

AlphaZero能夠掌握三種不同的複雜遊戲，將來或許會攻破所有遊戲。這在一定的程度上改善了AI下一步的發展環境。

DeepMind的Alpha家族從最初的圍棋算法AlphaGo，幾經進化，形成了一個家族。最新成員AlphaFold，在預測蛋白質的3D結構方面超過了人類。這一研究成功也已經被deepmind發布。