每日最新頭條.有趣資訊

AlphaZero一周年:登上《科學》封面,完整論文首次公開

大數據文摘出品

作者:魏子敏、蔣寶尚

阿爾法元(AlphaZero)

誕生一周年之際,《自然(Science)》雜誌今天以封面文發布了阿爾法元(AlphaZero)經過同行審議的完整論文,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。

具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——國際象棋和日本將棋。

論文題目為《A general reinforcement learning algorithm that masters chess, shogi and Go through self-play》,一共32頁,從細節到參考文獻算法,都做了詳細介紹。

論文鏈接:

http://science.sciencemag.org/content/362/6419/1140

《Science》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。

去年的12月7日,DeepMind的研究組宣布已經開發出一個更為廣泛的阿爾法元(AlphaZero)系統,可以訓練自己在棋盤,將棋和其他規則化遊戲中實現“超人”技能,所有這些都在一天之內完成,並且無需其他乾預,戰績斐然:

4個小時成為了世界級的國際象棋冠軍;

2個小時在將棋上達到世界級水準;

8個小時戰勝DeepMind引以為傲的圍棋選手AlphaGo Zero。

當時,還沒有經過同行評議的這篇論文首發在arxiv上,引發了人工智能界的重大探討。

https://arxiv.org/pdf/1712.01815.pdf

時隔一年,Science雜誌以封面發布了經過了同行評議、AlphaZero的最新進展和完整評估。同日,Deepmind也發布了一篇博文宣布這一消息:

今天我們很高興地發布了AlphaZero的完整評估,該評估發表在Science (開放訪問版本)雜誌上,該期刊確認並更新了這些初步結果。論文中描述了AlphaZero如何從了解規則開始訓練,並快速學習每個遊戲成為高級玩家。

博文中,Deepmind還請來了幾位AlphaZero的人類對手,比如,20年前,在“人機大戰”中被深藍打敗的前世界國際象棋冠軍加裡卡斯帕羅夫,描述了AlphaZero的棋術。

“我無法掩飾自己的滿足感,它非常有活力,就像我自己一樣!“

DeepMind博文鏈接:

https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

DeepMind提到,傳統的國際象棋引擎,包括20年前的深藍,多依賴於數千個強大的人類玩家輔助的規則,嘗試解釋遊戲中的所有可能性。Shogi程式也是為遊戲定製出來的,使用與國際象棋程式類似的搜索引擎和算法。

AlphaZero則採用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些手工製作的規則。

不僅是國際象棋,這一方式適用於非常多複雜的遊戲。一個未經訓練的神經網絡可以通過強化學習的方式試驗,最終經過多次學習,在博弈中自己掌握這個遊戲:起初,它完全隨機下子走位,但隨著時間的推移,系統從勝利、失敗中學習,從而調整神經網絡的參數,不斷優化,直到找到最有利的選擇。

文章中提到,每個遊戲的難度不同,算法需要訓練的時間也不同,例如,系統的掌握象棋需只需訓練9個小時,圍棋需要的計算時間多一些,需要13天左右。

訓練有素的網絡用於指導搜索算法 - 稱為蒙特卡羅樹搜索(MCTS),以選擇遊戲中最有希望的移動。對於每一步,AlphaZero的搜索範圍是傳統國際象棋搜索中很小的部分。例如,在國際象棋中,它每秒僅需要搜索6萬個位置,相比之下,Stockfish需要搜索6千萬個位置。

當然,AlphaZero算法最大的意義在於,它不僅適用於“下棋”,這個算法的目標是希望能創建出一個智能系統,夠解決各種現實問題,另外,在適應環境方面具有靈活性。

靈活適用多環境任務是當前人工智能發展的一個挑戰,即只能在特定的領域有非常高的技能水準,如果將任務遷移之後,系統往往不適用了。

AlphaZero能夠掌握三種不同的複雜遊戲,將來或許會攻破所有遊戲。這在一定的程度上改善了AI下一步的發展環境。

DeepMind的Alpha家族從最初的圍棋算法AlphaGo,幾經進化,形成了一個家族。最新成員AlphaFold,在預測蛋白質的3D結構方面超過了人類。這一研究成功也已經被deepmind發布。

獲得更多的PTT最新消息
按讚加入粉絲團