史上最強棋類AI降臨：谷歌公布AlphaGo更新版

新智元報導

來源：DeepMind; Science

編輯：文強，三石，大明

【新智元導讀】DeepMind最強棋類算法AlphaZero今天以Science封面論文形式發表。David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法，以及實現通用學習系統的重要一步。

史上最強棋類AI降臨！

今天，DeepMind的通用棋類算法，也是迄今最強的棋類AI——AlphaZero，經過同行評議，被頂級期刊 Science 以封面論文的形式，正式引入學界和公眾的視野。

一年前，DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文，當即就在圈內引發轟動：AlphaZero從零開始訓練，2小時擊敗最強將棋AI，4小時擊敗最強國際象棋AI，8小時擊敗最強圍棋AI（李世石版AlphaGo）。

現在，DeepMind將完整評估後的AlphaZero公之於眾，不僅驗證了上述結果，還補充了新的提升。

AlphaZero沒有使用人類知識（除了棋類基本規則），從零開始訓練，快速掌握日本將棋、國際象棋和圍棋這三種複雜棋類遊戲，展現出令人耳目一新的獨道風格，拓展了人類智慧，並證明了機器擁有創造性的可能。

國際象棋大師卡斯帕羅夫——20年前輸給IBM深藍的國際象棋世界冠軍，今天在Science發表社論，表示他很高興看到AlphaZero展現出了像他一樣“動態、開放”的棋風：

“傳統觀點以為，機器將通過無休止的枯燥操作趨近完美，最終導致平局。但據我觀察，AlphaZero優先考慮棋子的活動而非盤面上的點數優勢，更喜歡在我看來有風險和激進的地方落子。

“電腦程式通常會反映出編程者的側重和偏見，但由於AlphaZero通過自我對弈訓練，我認為它體現了棋的真諦（truth）。正是這種出色的理解使其能夠超越世界頂級的傳統棋類引擎，而且每秒計算的落子位置要少得多。”

AlphaZero證明了機器也能成為專家，機器生成的知識也值得人類去學習。“AlphaZero以這樣一種強大而有用的方式超越了我們，”卡斯帕羅夫寫道：“只要在虛擬知識（virtual knowledge）能夠生成的領域，這個模型都可能複製到任何其他任務上。”

IBM深藍的共同創造者之一Murray Campbell，也在Science發表評論文章，指出DeepMind論文使用通用的搜索方法，結合蒙特卡羅樹搜索（MCTS），增強了深度強化學習。

“儘管MCTS已經成為圍棋程式中的標準搜索方法，但迄今為止，幾乎沒有證據表明它在國際象棋或將棋中有用。”Campbell寫道：“DeepMind展示了深度強化學習與MCTS算法相結合的力量，從隨機初始化的參數開始，讓神經網絡通過自我對弈不斷更新參數。”

下面，就讓我們一起來看看，AlphaZero的論文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis親自撰文，闡述他們如何用5000個TPU，讓AlphaZero快速掌握將棋、國際象棋和圍棋。

用5000個TPU，快速掌握將棋、圍棋和國際象棋

傳統國際象棋的引擎依賴於由人類高手玩家“手工製作”的數千條規則和啟發式方法，它們都試圖解釋遊戲中可能發生的每一種結果。

日本將棋程式也是特定於遊戲的，使用與國際象棋程式類似的搜索引擎和算法。

AlphaZero則採用了一種完全不同的方法，用深度神經網絡和通用算法取代了這些“手工製作”的規則，而這些算法對基本規則之外的遊戲卻一無所知。

在國際象棋中，AlphaZero僅用了4個小時便首次超越了Stockfish；在日本將棋中，AlphaZero在2小時後首次超過Elmo；在圍棋方面，AlphaZero在2016年的比賽中，經過30個小時的鏖戰，首次擊敗了傳奇棋手李世石。注：每個訓練步驟代表了4096個落子位置。

為了學習每一個遊戲，一個未經訓練的神經網絡通過強化學習與自己對打數百萬次。

一開始，它完全是隨機的，但是隨著時間的推移，系統從輸贏中開始學習，並根據神經網絡的參數進行調整，使其在未來可以選擇更有利的走法。

網絡需要的訓練量取決於遊戲的風格和複雜性，國際象棋需要9小時，將棋需要12小時，圍棋需要13天。

“AlphaZero的一些舉動，例如將王將移至棋盤中央是有違將棋理論的，從人類的角度來看，它的這些舉動似乎是將自己置於危險境地。但令人難以置信的是，它仍然控制著局面。AlphaZero獨特的遊戲風格向我們展示了將棋的新可能性。”

羽生善治，日本將棋棋士，獲得七項頭銜的“永世稱號”，亦是日本將棋史上第一個達成七冠王與“永世七冠”的人，改寫了將棋界多項歷史紀錄

訓練後的網絡用於指導搜索算法（蒙特卡羅樹搜索，MCTS），選擇遊戲中最有有利的動作。對於每次移動，AlphaZero僅搜索傳統國際象棋引擎所考慮的一小部分位置。

例如，在國際象棋中，它每秒僅搜索6萬個位置，相比之下，Stockfish大約有6千萬個位置。

這些經過全面訓練的系統是在國際象棋(Stockfish)和將棋(Elmo)最強大的“手工引擎”以及我們之前自學的AlphaGo Zero系統(已知最強大的圍棋選手)的幫助下進行測試的。

每個程式都在它們所設計的硬體上運行。Stockfish和Elmo使用了44個CPU核，而AlphaZero和AlphaGo Zero使用了一台擁有4個第一代TPU和44個CPU核的機器。第一代TPU在推理速度上與NVIDIA Titan V GPU等商用硬體大致相似，但架構並不具有直接可比性。

所有的比賽都有時間控制，每場比賽3小時，外加每一步額外的15秒。

在每次評估中，AlphaZero都毫無懸念地擊敗了對手：

在國際象棋比賽中，AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish，贏得155場比賽，在1000場比賽中隻輸了6場。為了驗證AlphaZero的穩健性，我們還進行了一系列比賽，這些比賽都是從常見的“人類開局方式”開始的。在每一種開局情況下，AlphaZero都擊敗了Stockfish。我們還與最新開發版本的Stockfish以及它的變體打過比賽，在所有的比賽中，AlphaZero都贏了。

在將棋比賽中，AlphaZero擊敗了2017年CSA世界冠軍版Elmo，贏得了91.2％的比賽。

在圍棋比賽中，AlphaZero擊敗了AlphaGo Zero，贏得了61％的比賽。

獨創棋風，拓展人類智慧，邁向通用學習系統重要一步

然而，讓人感到最著迷的是AlphaZero的行棋風格。例如，在國際象棋中，AlphaZero在自我訓練中獨立發現並走出了人類棋手常用的定式，如開局、王不立險地（King safety）和兵的走法。

但是，由於這些都是自學的，因此不會受傳統觀念的影響，AlphaZero還開創出了自己的直覺和策略，產生了一系列令人興奮的新穎思路，為幾個世紀以來國際象棋戰略戰術的思考提供了有益的補充。

過去一個多世紀以來，國際象棋一直被用作衡量人類和機器認知水準的黃金標準。 AlphaZero取得的非凡成果，刷新了這門古老的棋盤遊戲和尖端科學之間的顯著聯繫。

前國際象棋世界冠軍加裡·卡斯帕羅夫

在與AlphaZero對弈時，棋手注意到的第一件事就是它的行棋風格，國際象棋大師Matthew Sadler說道，“它會懷著明確的目的和力量來瓦解對手的王”。Sadler和女子國際象棋大師Natasha Regan一起分析AlphaZero，並寫作出版了專著《Game Changer：AlphaZero的顛覆性國際象棋策略和人工智能潛力》。

AlphaZero的行棋風格非常靈活，最大限度地提升己方子力配備的靈活性和機動性，同時最大限度地降低對手子力的靈活性和機動性。

與我們的通常想法不同的是，AlphaZero似乎對“子力”本身的重視程度較低，而重視“子力”是現代國際象棋的基本行棋思路，棋盤上每個子都具有價值，如果一個玩家在棋盤上的子力高於對手，那麽他就擁有子力優勢。而AlphaZero甚至願意在棋局早期犧牲子力，以獲得長期收益。

“令人印象深刻的是，AlphaZero在行棋時能將這種風格應用在各種各樣的開局和定式中。”Matthew說道，他也觀察到，AlphaZero從走第一步開始就體現出了這種明確的的性，且一以貫之，其風格體現得非常明顯。

“過去的傳統國際象棋軟體已經非常穩定，幾乎不會出現明顯錯誤，但在面對沒有具體和可計算解決方案的時，其行棋會發生偏差，”他說：“正是在這種時候，才是AlphaZero發揮其'感覺'、'洞察'或'直覺'的地方。”

這種獨特的能力，在其他傳統的國際象棋引擎中是看不到的。目前，AlphaZero已經被用來在世界國際象棋錦標賽上為棋迷們提供有關Magnus Carlsen和Fabiano Caruana（現男子國際象棋等級分前兩名）對局的新見解和評論。

“我們可以看看AlphaZero的分析，與頂級國際象棋大師對棋局的分析，甚至和棋手實戰著法有何不同，這真是令人著迷的一件事。AlphaZero可以作為整個國際象棋社區的強大教學工具。”

AlphaZero的“教誨”，讓我們想起了2016年AlphaGo與圍棋世界冠軍李世乭對弈時的場景。在那次比賽中，AlphaGo走出了許多極具創造性的致勝著法，包括在第2局比賽中的執黑第37手，這手棋推翻了人類數百年的思路。這些著法已經被包括李世乭本人在內的所有級別的棋手和愛好者研究過。

他們對此表示：“我之前還認為AlphaGo是基於概率來計算的，它只是一台機器。但當我看到這手棋時，我改變了想法。毫無疑問，AlphaGo是有創造性的。”

“人機大戰”的影響力已經遠遠超出了國際象棋本身。這些自學成才的專家級機器不僅表現優異，棋力非凡，而且從自己創造的新知識中學習。

加裡·卡斯帕羅夫前國際象棋世界冠軍

和圍棋一樣，我們對AlphaZero在國際象棋上的創造性突破感到興奮，自從電腦時代以來，人工智能時時面臨著巨大挑戰，包括巴貝奇、圖靈、馮·諾依曼在內的早期電腦先驅人物，都曾試圖設計國際象棋程式，但AlphaZero的用途不僅僅是國際象棋、將棋和圍棋。

為了創建能夠解決各種現實問題的智能系統，它們需要更加靈活，能夠適應新情況。雖然目前在實現這一目標方面取得了一些進展，但AI的通用化問題仍然是研究中的一項重大挑戰，經過訓練的AI系統面對特定任務時能夠以極高標準完成，但任務只要稍有變化往往就會失敗。

AlphaZero掌握了三種不同的複雜遊戲，這可能是朝著解決這一問題邁出的重要一步。儘管目前還處於早期階段，但AlphaZero取得的進步，以及在蛋白質折疊系統AlphaFold等其他項目上的令人鼓舞的結果，讓我們對實現通用學習系統的使命充滿信心，相信未來我們能夠找到一些新的解決方案，解決最重要、最複雜的科學問題。

（原標題：AlphaZero達成終極進化體，史上最強棋類AI降臨！）