每日最新頭條.有趣資訊

阿爾法狗戰勝李世石後 谷歌新AI碾壓人類職業電競選手

Alphabet旗下獨立團隊DeepMind開發的人工智能機器人AlphaStar在《星海爭霸2》中打敗了人類職業選手,這是人工智能領域裡的又一個第一次。通過網絡直播的一系列在12月進行的比賽中,人工智能玩家連續10次擊敗了人類選手,讓Liquid戰隊的兩位職業選手完敗。

只有在最後一場現場直播比賽中,星海爭霸職業選手“MaNa”才為人類贏得一場勝利。現年25歲的MaNa本名為Grzegorz Komincz是波蘭人,目前效力於Liquid戰隊,他在星海爭霸2的世界冠軍賽系列賽中排名第一,在多項賽事中進入前四。

但在這一對決中,MaNa並不輕鬆。他是在隊友TLO失敗五次後上場的。這位5歲就開始打星海爭霸的職業選手,在面對連續兩場半小時即被AlphaStar打敗後,他曾沮喪地對外界表示,“我現在只有一個念頭,活著就行”,但在當時MaNa還是輸掉了後面的比賽。

他不知道的是,他面對的AlphaStar不僅經過了相當於人類200年不間斷遊戲的訓練,而且是在若乾個AlphaStar中彼此對決後戰績最佳的那一個。

對於這場人機對戰的結果,原因無他,AlphaStar果斷地執行了戰術,並且表現出精準的操作。在賽後DeepMind聯合研究負責人David Silver表示,未來的人們可能會回顧(今天),或許會認為這是人工智能系統所能做的又向前邁了一步。

與人競技,是人工智能系統證明自己的一種方式,穿插在整個技術發展演進的過程中。與國際象棋或者圍棋這樣的全盤博弈不同,星海爭霸顯然更加困難,因為人工智能無法通過觀察每一顆棋子的移動來計算下一步動作,而系統必須實時做出反應。

AlphaStar是誰?

時間撥回2010年,神經科學家、電子遊戲設計者Demis Hassabis和兩個同伴在英國成立了一家人工智能公司DeepMind Technologies。該公司創造了一種以人類的方式學習如何玩電子遊戲的人工神經網絡,並可接入一個外部記憶體,使得一台電腦可以模擬人類短期記憶。

與Facebook洽談未果後,2014年1月,谷歌宣布收購DeepMind,價格為4億英鎊,而當時這家公司的雇員只有50名。隨後,DeepMind開始人機圍棋的研究。

2015年8月,谷歌因多樣化公司精簡架構需要宣布重組成立母公司Alphabet,除了搜索、Android和YouTube外,其他業務紛紛獨立。雖然2017年9月,谷歌再度將Waymo和Verily等公司打包進控股公司XXVI,但DeepMind並不在內。

DeepMind官方工作人員回復記者稱,“DeepMind是一個獨立的團隊,在Alphabet內部自主運營,但我們在谷歌與許多團隊進行了大量合作”。

2015年底,搜索之後,谷歌開始重新談論技術,並認定機器學習成為其接下來產品必備的技能,並開放機器學習系統TensorFlow。但真正讓谷歌在人工智能大放異彩的是,2016年3月,DeepMind開發的人工智能系統AlphaGo以4-1打敗韓國圍棋冠軍李世石。

一些人工智能行業的從業者甚至認為,這是第三輪人工智能熱潮興起的標誌。事實上,2015年10月,AlphaGo就已經面世,並且打敗了歐洲圍棋冠軍樊麾,後者加入了DeepMind團隊,幫助訓練AlphaGo。

2017年初,AlphaGo以“Master”為名,陸續在網絡上挑戰了60名人類棋手,保持全勝戰績。5月,第二代AlphaGo 3:0戰勝了中國棋手柯潔。AlphaGo項目的主要負責人David Silver表示,AlphaGo已經不需要依賴人類訓練了。

同年12月,DeepMind推出AlphaGo Zero。隻用了4個小時的訓練時間,就可以從零開始學會國際象棋的規則,並且在100場比賽中取勝28場,平局72場。在國際象棋遊戲的評級中,Zero經評估約在4000左右,而大師級玩家評分在2500以上。

對於AlphaStar,上述官方工作人員告訴記者,AlphaStar是DeepMind為玩星海爭霸而創造的人工智能系統的名字。儘管與Zero有相似之處,但兩者是不同的系統,AlphaStar將監督學習和強化學習結合,與許多不同版本的自己對弈,用於測試和改進策略。

AlphaStar可以解決“不完美的資訊”

比賽中的DeepMind科學家們並不輕鬆。因為這款2010年由暴雪娛樂出品即時戰略遊戲的複雜程度遠超過圍棋比賽。一位遊戲公司的CEO告訴記者,遊戲分為“Play”和“Game”兩個概念,圍棋是“Game”,找出最優決策組即可,而包含“Play”後就增加了挑戰的目標。

事實上,一方面,AlphaStar比基於搜索方法的AlphaGo和Zero,更適應不完美的資訊,另一方面,AlphaStar是一種無模型強化學習算法,可以通過學習對付其對手最有效的行為,而不是試圖建立對手實際看到的模型。

David Silver表示,“不完美的資訊遊戲沒有絕對的最佳遊戲方式,取決於對手的行為”。正因為此,AlphaStar在遊戲中使用了包括覆蓋策略空間所有角落等新的方式,而這在AlphaGo系統的遊戲中並不需要。

具體來說,在圍棋比賽中,人工智能是可以觀察到人類對手的每一個行動和全部棋盤格局,但在《星海爭霸2》中,因為遊戲包含“戰爭迷霧”的視野限制,人工智能只能觀察到部分地圖,人工智能也需要像人類一樣派出手中資源對地圖進行探索,從而獲取對手行動。

所謂“不完美的資訊”,在這裡就是指,人工智能無法對全局進行掌控,而這對人工智能來說是一個極大的挑戰。

另一個不完美是指動作海量後帶來的複雜性。在圍棋比賽中,可以根據361落點精準計算出行動步驟,但在《星海爭霸2》中,一個簡單的部門就可以執行超過300項的基本行動,而許多行動需要精準計算到地圖的某個點,而在比賽中,需要同時選擇和控制上百個部門。

DeepMind官方披露的資訊顯示,其設定的參數為,平均每個時間步(time-step)進行10到26個基本行動。

此外,值得注意的是,策略本身的複雜性。與步步謀劃的圍棋不同,《星海爭霸2》這類即時戰略遊戲早已衍生出多種流派操作,而且十分注重開局的過程,因為資源短缺的情況下在後期很難翻盤。但對人工智能而言,前期的行動可能無法很短期內獲得回報。

打敗人類的背後是超過200年時間的練習

在一篇部落格中,DeepMind表示,遊戲一直被作為測試和評估人工智能系統性能的重要方法。隨著能力的提高,研究界開始尋求越來越複雜的遊戲,捕捉解決科學和現實問題所需的不同智能元素。星海爭霸因被認為是最具挑戰性的即時策略遊戲之一,而成為研究的“重大挑戰”。

自從2009年發布BroodWar API(母巢之戰的應用接口)後,星海爭霸的競賽一直在進行,分成不同等級的賽事,為了幫助平台探索,DeepMind與暴雪娛樂在2016年和2017年合作發布了一款名為PySC2的開源工具,其提供遊戲回放記錄的功能。

DeepMind稱,這項工作的基礎之上,結合工程和算法的突破,產生了AlphaStar。

AlphaStar的行為是由深度神經網絡生成的,該神經網絡接收來自原始遊戲界面輸入的數據,並輸出構成遊戲內動作的一系列指令。AlphaStar還是用了一種新的多智能體學習方法,也被稱為模仿學習,使得其能夠通過模仿不同等級的玩家使用的行為和策略。

具體來說,DeepMind與暴雪合作,將遊戲界面分為若乾個包含特徵的層,通過不同顏色色塊區分,但保留空間資訊。人工智能可以將各項任務理解為更為細節的操作,但這樣無法掌控全局。為了解決這一麻煩,AlphaStar通過10萬多個真實案例,進行上述的模仿學習。

在這樣的過程中,DeepMind獲得了多個版本的AlphaStar,而這些版本之間不斷競爭,最後留下勝率最高的版本。早期被看好的利用光子炮和黑暗聖堂武士進行快攻的策略,隨著訓練的進展,逐步因為風險太大而被淘汰。

不僅如此,為了訓練AlphaStar,DeepMind團隊使用了谷歌的Cloud TPU v3構建了一個可以擴展的分布式訓練設定,使得兩周之內的時間,每一個版本的AlphaStar相當於玩了200年的《星海爭霸2》。

在最終直播中播放的錄像來看,遊戲進行一半時,AlphaStar已經預測自己有較高的勝率打贏MaNa。不過,DeepMind研究科學家Oriol Vinyals表示,直到AlphaStar第一次打敗TLO,後者對他們說,“你們真的做到了”,他才放鬆下來。Oriol Vinyals曾是谷歌大腦團隊的成員。

在錄像中,AlphaStar十戰全勝,展現了人工智能的能力。但在最終的直播大戰中卻出現了翻轉,MaNa贏得了比賽。在這場比賽中,MaNa不停騷擾AlphaStar的基地,並且牽製後者的兵力不斷往返於基地和資源之間,迫使AlphaStar難以策略成型。

但在復仇賽後,MaNa也同樣感到,如果對手是人類,就不會犯下這樣的錯誤。

失敗令人沮喪,但是對DeepMind來說,AlphaStar的訓練時間並不長,而看起來一旦有進一步訓練的機會,它將會重新贏得比賽。DeepMind團隊賽後已經開始著手研發AlphaStar新的版本,而這在一些業內人士看來,類似於AlphaGo的早期實踐。

DeepMind在遊戲方面的研究並沒有直接對應商業的前景,而它的一些其他研究成果已經為谷歌所使用。Demis Hassabis曾表示,“如果說谷歌是火箭,DeepMind就是燃料”。問題是,燃料能燒多久?

DeepMind從營收來源來看難以斷奶Alphabet。2018年10月,英國公司注冊署披露的一份檔案顯示,該公司2017財年稅前虧損高達2.81億英鎊,同比增長123%,而營收僅為5440萬英鎊,其來源是通過技術幫助母公司提高數據中心製冷系統的效能等服務。

新京報記者 梁辰 編輯 程波 校對 柳寶慶

獲得更多的PTT最新消息
按讚加入粉絲團