谷歌新AI打《星海爭霸2》比賽詳解靠不同策略並非手速

今天凌晨，谷歌DeepMind與暴雪進行了聯合直播，展現了谷歌最新AI程式AlphaStar與《星海爭霸2》職業選手比賽的實況，最終新AI程式AlphaStar以10：1戰績擊敗了兩位Team Liquid的職業戰隊選手。

AlphaStar與《星海爭霸2》比賽直播

在直播開始之際，DeepMind在官方部落格上詳細解釋了打造AlphaStar的全過程。DeepMind團隊認為，儘管《星海爭霸》只是一款遊戲，但不失為一款較為複雜的遊戲。AlphaStar背後的技術可以用來解決其他的問題。在氣象預報、氣候建模、語言理解等等領域，以及研究開發安全穩定的人工智能方面，都會有很大幫助。

以下為DeepMind文章主要內容：

在過去幾十年裡，人類一直用遊戲測試評估AI系統。隨著技術的進步，科學界尋找複雜的遊戲，深入研究智力的方方面面，看看如何才能解決科學問題和現實問題。許多人認為，《星海爭霸》是最有挑戰的RTS（實時戰略）遊戲之一，也是有史以來電子競技領域最古老的遊戲之一，它是AI研究的“大挑戰”。

現在我們推出一個可以操作《星海爭霸2》遊戲的程式，名叫AlphaStar，它是一個AI系統，成功打敗了世界頂級職業玩家。12月19日，我們舉行了測試比賽，AlphaStar打敗了Team Liquid戰隊的Grzegorz "MaNa" Komincz，他是世界最強的職業玩家之一，以5比0獲勝，之前AlphaStar已經打敗同隊的Dario “TLO” Wünsch。比賽是按照職業標準進行的，使用天梯地圖，沒有任何遊戲限制。

在遊戲領域，我們已經取得一系列成功，比如Atari、Mario、《雷神之錘3：競技場》多人奪旗、Dota 2。但是AI技術還是無法應付複雜的《星海爭霸》。想拿到好結果，要麽是對遊戲系統進行重大調整，對遊戲規則進行限制，賦予系統超人一般的能力，或者讓它玩一些簡單地圖。即使做了修改，也沒有系統可以與職業玩家一較高下。AlphaStar不一樣，它玩的是完整版《星海爭霸2》，用深度神經網絡操作，網絡已經用原始遊戲數據訓練過，通過監督式學習和強化式學習來訓練。

《星海爭霸》遊戲的挑戰

《星海爭霸2》由暴雪娛樂製作，是一款部門眾多的多層次宇宙科幻遊戲，在設計上非常挑戰人工智能。與前作一樣，《星海爭霸2》也是遊戲史上最巨集大和成功的遊戲，已有20余年的電競聯賽歷史。

該遊戲玩法眾多，但電競中最常見的是1對1對戰，五局三勝製。開始時，玩家從人類、星靈和異蟲三個種族中人選一個進行操作，每個種族都有獨特的特點、能力（機構專業選手會專注於一個種族）。開局時，每個玩家都有一些“農民”來采集資源和建造建築，解鎖新科技。這也讓玩家可以收集新的資源，建造更複雜的基地和建築，研發新科技以勝過對手。要取得勝利，玩家必須仔細平衡巨集觀經濟管理，即巨集觀經濟，和每個部門的控制，即微操。

這就需要平衡短期和長期目標，還要應對意外情況，整個系統因而經常變得脆弱僵硬。處理這些問題需要在下列若乾人工智能領域解決挑戰，取得突破：

遊戲理論：《星海爭霸》是個遊戲，就想剪刀石頭布一樣，沒有單一最佳戰略。因此人工智能訓練過程中需不斷探索和擴展最戰略知識前沿。

瑕疵資訊：不同於國際象棋或圍棋那種一覽無余的狀態，星際玩家無法直接觀察到重要資訊，必須積極探索“探路”。

長期規劃：和許多現實世界中的問題並非是從“因”立即生“果”一樣，遊戲是可以從任何一個地方開始，需要1個小時時間出結果，這意味著在遊戲開始時的行動可能在很長一段時間不會有收效。

即時性：不像傳統桌面遊戲，玩家輪流行動，星際玩家必須在遊戲時間內持續排兵布陣。

龐大的行動空間：要同時控制上百個部門及建築，這就導致了大量的可能性，行動是分級別的，可以被修改和擴張。我們將遊戲參數化後，每個時間步驟平均約有10到26個合理行為。

由於上述的大量挑戰，《星海爭霸》成為了人工智能研究中的“大挑戰”。自從2009年《母巢之戰》應用參數界面問世後，圍繞《星海爭霸》和《星海爭霸2》開展了眾多人工智能競賽。

AlphaStar與MaNa的第二場比賽可視化動圖。人工智能的視角，原始觀測輸入神經網絡，神經網絡內部活動，一些人工智能考慮可采取的行動，如單擊哪裡或在哪裡建造，以及預測結果。MaNa的視角也在其中，但人工智能看不見他的視角。

AlphaStar是如何訓練出來的

AlphaStar的行動由深層神經網絡產生，從原始遊戲界面接收數據（一隊部門及其屬性），輸出指令結果，在遊戲中形成行動。更確切的說，神經網絡構架為部門應用了可變形的軀乾，帶指針網絡的深層機器學習核心，以及集中值基準，我們相信這個先進的建模會有助於解決長期結果建模及大量輸出空間，如翻譯，語言建模和直觀表示。

AlphaStar也應用了最新的多代理習得算法。其神經網絡最初在監督下與匿名人類對戰進行訓練，這些素材來自暴雪。這讓AlphaStar可以通過模仿來學習星際天梯玩家基本的微操和巨集觀戰術。這使其在一開始就擊敗了95%的精英電腦玩家，也就是黃金段位的人類玩家。

AlphaStar聯賽，代理開始訓練時採用人類對戰的重播，然後被訓練與同一聯賽的競爭者對戰，每次循環，新的競爭者都會被分入，之前的競爭者則凍結，而對戰匹配的可能性和超參數決定了每個代理將進行的學習目標，以便在保留多樣性的同時增加難度。代理的超參數依照與其他競爭者的遊戲結果通過支援學習制定，最終的代理被從聯賽的納什分布中取樣（而非替換）。 AlphaStar聯賽，代理開始訓練時採用人類對戰的重播，然後被訓練與同一聯賽的競爭者對戰，每次循環，新的競爭者都會被分入，之前的競爭者則凍結，而對戰匹配的可能性和超參數決定了每個代理將進行的學習目標，以便在保留多樣性的同時增加難度。代理的超參數依照與其他競爭者的遊戲結果通過支援學習制定，最終的代理被從聯賽的納什分布中取樣（而非替換）。

這樣做為多代理支援學習的過程奠定了基礎。代理的聯賽，即參賽者，相互對戰，類似人類玩家的星際天梯。新的競爭者被從已有的競爭者中選出，不斷加入聯賽，每個代理都從與其他競爭者的對戰中學習。這種新的學習方法源自基於群體的強化學習，可以持續探索《星海爭霸》龐大的戰術空間，確保人工智能可以在對抗新的強力對手的同時不會忘記之前學到的。

對AlphaStar聯賽中競爭者與暴雪在線聯賽玩家的比賽匹配分級估算。比賽匹配分級估算是對玩家技術的估算方式。對AlphaStar聯賽中競爭者與暴雪在線聯賽玩家的比賽匹配分級估算。比賽匹配分級估算是對玩家技術的估算方式。
隨著聯賽和新的競爭者不斷被創建，新的反製策略隨之誕生，以打敗之前的戰術。有的競爭者只是改良了之前的戰術，但也有的則從建築順序、部門組合、微操方式上顛覆了已有的戰術。比如早期有的聯賽愛用神族防禦加黑暗聖堂打速推，這樣做風險很大，但之後就變成了爆農民，或犧牲先知騷擾經濟。這與人類玩家研發新戰術的過程類似。

隨著訓練的進行，AlphaStar改變了部門建造曲線。

除此之外，要鼓勵聯賽中競爭者的多樣性，所以每個競爭者都有不同的學習目標：有的目標被設定成打擊特定的對手，有的則是用特定部門打敗一系列的對手。學習目標隨著訓練過程二改變。

AlphaStar聯賽中的競爭者。與TLO和MaNa對戰的代理被特別標記了出來。

神經網絡給每個代理賦予的權重通過強化學習來更新，強化學習是通過對戰得來，這是為了優化學習目標。權重更新規則作用巨大，裡麵包含了經驗重播，自我模仿學習以及策略蒸餾等機制。

該表格顯示出一個代理（黑點）最終被選擇與MaNa對戰，在訓練中拓展戰術和競爭者（彩色點）。每個點都代表AlphaStar聯賽中的一個競爭者。點的位置代表其戰術（內置），點的大小代表其在訓練中被選中與MaNa代理的頻率。該表格顯示出一個代理（黑點）最終被選擇與MaNa對戰，在訓練中拓展戰術和競爭者（彩色點）。每個點都代表AlphaStar聯賽中的一個競爭者。點的位置代表其戰術（內置），點的大小代表其在訓練中被選中與MaNa代理的頻率。
為了訓練AlphaStar，DeepMind用谷歌三代TPU搭建了高度可擴展的分布式訓練環境，支持許多個競爭者一起從幾千個《星海爭霸2》的平行實例中學習。競爭者聯賽打了14天，每個競爭者用了16個TPU。這相當於讓每個競爭者連打了200年遊戲。

最終的AlphaStar包含了聯賽的納什分布，即匯總了所有最有效的戰術，並且在一塊普通的GPU上就能運行。

AlphaStar聯賽中競爭者與新競爭者的納什分布被創建出來。納什分布是尚未被利用的一些補充競爭者最新的競爭者的權重最高，展示了與之前所有競爭者對抗的持續過程。 AlphaStar聯賽中競爭者與新競爭者的納什分布被創建出來。納什分布是尚未被利用的一些補充競爭者最新的競爭者的權重最高，展示了與之前所有競爭者對抗的持續過程。

AlphaStar如何觀察遊戲以及玩遊戲的

職業玩家TLO和MaNa的APM可以達到數百，現有機器人高出很多，它們可以獨立控制每一個部門，持續維持幾千甚至幾萬的APM。

對決TLO和MaNa時，AlphaStar的平均APM約為280，比職業玩家低，但它的動作更精準一些。為什麽APM會低一些？主要是因為AlphaStar是用錄像訓練的，因此它會模擬人類玩法。還有，AlphaStar在觀察和行動之間平均會有350ms的延遲。

AlphaStar在APM和延遲方面與人類玩家的比較

對決時，AlphaStar借助原始界面與《星海爭霸》遊戲引擎交流，也就是說，它可以直接觀察地圖上的我方部門和敵方可見部門，不需要移動攝影頭。如果是人類玩家，注意力有限，必須調整攝影頭，讓它瞄準應該關注的地方。分析AlphaStar遊戲能發現，它有一個隱藏的注意力焦點。平均來說，遊戲代理每分鐘會切換環境約30次，和MaNa、TLO的頻率差不多。

比賽之後，我們開發了第二版AlphaStar。和人類玩家一樣，這個版本的AlphaStar需要確定何時移動攝影頭，應該瞄準哪裡，對於螢幕資訊，AI的感知受到限制，動作位置也受到可視區域的限制。

AlphaStar在使用原始界面和控制攝影頭時，其MMR數據比較

我們訓練了兩個代理，一個使用原始界面，一個學著控制攝影頭。兩個代理最開始時都用人類數據進行監督式和增強式訓練。使用攝影頭界面的AlphaStar幾乎和使用原始界面的AlphaStar一樣強大，在內部排行榜上達到7000 MMR（天梯積分）。在演示比賽中，MaNa用攝影頭界面打敗了原型版AlphaStar，但它隻訓練了7天。我們希望能在近期內評估精煉的攝影頭界面AlphaStar。

事實證明，AlphaStar與MaNa和TLO對決時之所以佔據上風，主要是因為它的巨集觀戰略、微觀戰略決策能力更強，靠的不是超級點擊率、超快響應時間、原始界面。

AlphaStar與職業玩家的較量

《星海爭霸》這款遊戲包含三大外星種族：人類、星靈和異蟲。玩家可以從中選擇一個族類開始遊戲。目前，我們僅針對星靈一族對AlphaStar進行了訓練，以減少訓練時間和差異。值得一提的是，相同的訓練模式可以也應用到其他兩個種族的訓練上。經過訓練的代理可以在《星海爭霸2》（v4.6.2）的CatalystLE天梯地圖中，實現星靈族與星靈族的較量。

為評估AlphaStar的表現，團隊最初測試了代理對弈玩家TLO（一位頂級職業異蟲玩家和大師級星靈玩家）的表現。AlphaStar以5:0的戰績獲勝，對弈過程中AlphaStar靈活使用了大量部門和建造命令。

“代理的強大水準令我驚訝，”TLO表示，“AlphaStar將眾所周知的策略融會貫通。代理運用的策略，也是我之前從未想到過的。也就是說對於這個遊戲，我們或許還有很多玩法沒有探索出來。”

對我們的代理繼續訓練了一周之後，我們讓代理與另一名玩家MaNa進行較量。MaNa不僅是世界頂級的《星海爭霸2》玩家，也是排名前十的最擅長使用星靈族的玩家之一。AlphaStar再次以5:0的戰績獲勝，體現了強大的微觀和巨集觀策略技能。

“AlphaStar在每局遊戲中採用的操作和不同策略十分令人印象深刻，近乎人類選手般的遊戲策略出乎我的意料，”MaNa說，“我這才意識到，自己之前的策略過分依賴失誤和人類反應力，因此這場比賽讓我對遊戲有了全新的認識。我們很期待未來的無限可能。”

AlphaStar和其他複雜問題

打造AlphaStar的團隊打造AlphaStar的團隊

儘管《星海爭霸》只是一款遊戲，但不失為一款較為複雜的遊戲。我們認為，AlphaStar背後的技術可以用來解決其他的問題。比如，它的神經網絡架構可以基於不完美的資訊，對長時間序列中的可能行為進行建模——因為一局遊戲通常長達1個多小時且涉及成千上萬次動作。《星海爭霸》的每一幀都是輸入的一個動作，神經網絡在每一幀動作之後都會對接下來的遊戲發展進行預測。根據較長的數據序列進行複雜的預測，是很多現實世界挑戰中的基本問題，比如氣象預報、氣候建模、語言理解等等。AlphaStar項目的學習和發展對幫助這些領域取得顯著進展的可能性，值得期待。

我們還認為，團隊的一些訓練方法或可有助於研究開發安全穩定的人工智能。人工智能的一大挑戰是，系統出錯的方式各種各樣。先前，《星海爭霸》的職業玩家可以通過各種新穎方式誘導代理失誤，輕易擊敗AI系統。AlphaStar採用的基於league模式的創新訓練方式，可以找到最可靠、最不容易出錯的方式。這一創新方式對改進整體AI系統（尤其是在諸如能源等安全至上、且解決複雜邊緣案例十分關鍵的領域）的安全性和穩定性的前景亦值得期待。

實現最高水準的《星海爭霸》對弈代表了人工智能在有史以來最複雜電子遊戲中取得的重大突破。我們相信，這些進展，以及AlphaZero和AlphaFold等項目的其他進展，代表著我們在創建人工智能系統之路上的又一大前進。未來終有一日，智能系統將幫助人類解鎖解決世界上一些最重要、最基本之科學問題的創新方式。

谷歌新AI打《星海爭霸2》比賽詳解 靠不同策略並非手速

谷歌新AI打《星海爭霸2》比賽詳解靠不同策略並非手速