每日最新頭條.有趣資訊

雖然打星際輸給了AI,但人類尚未一敗塗地

《星海爭霸2》的職業選手迎來了在人工智能面前的第一次慘敗。

台灣時間1月25日凌晨,谷歌旗下人工智能團隊DeepMind公布了其開發的AI“AlphaStar”與《星海爭霸2》職業選手TLO和MaNa的比賽錄像。AlphaStar與兩人的比賽相隔約半個月,以兩場“5:0”取得完勝。

“不作弊”的AI

這是DeepMind為《星海爭霸2》所開發AI的首次亮相。

AlphaStar和以往的《星海爭霸2》遊戲AI有著本質上的區別——而且,這個區別和實力強弱沒關係。

和讀取API接口、直接在程式層面操作的傳統遊戲AI不同,AlphaStar的操作由一個深度神經網絡生成,獲取資訊和操作遊戲的方式類似真人。它先從原生遊戲界面上收集資訊,在處理完資訊後再把一連串指令輸出在遊戲畫面上。

在DeepMind公布的AlphaStar的第一視角Replay裡,我們能看到AI有邏輯非常接近人類 的“框選”“點擊”“切屏”等操作,並不像傳統AI那樣讓所有遊戲行為在程式層面瞬間完成。

AlphaStar的行為邏輯也不來自人工編寫。它在學習人類的對局錄像掌握初步玩法後,就像它的兄弟AlphaGo一樣,進入了“左右互搏”、自己和自己練習的過程。而且AlphaStar的對練對象不止一個人——DeepMind為它製造了數百個“分身”,直接模擬出了一個虛擬的天梯進行訓練。

從今天發布的錄像來看,不到一年時間過去,從“虛擬天梯”中爬出的AlphaStar在面對人類職業選手時已經具備了相當高的威脅性。

十比一的慘敗

DeepMind今天公布的兩場比賽,都發生在地圖匯龍島(Catalyst LE)上。

由於AlphaStar目前隻學習了星靈VS星靈的打法,人類和AI都只能以星靈種族進行內戰。並且,AlphaStar的視距被拉到最遠,能夠讀取整張地圖上的資訊(不能穿透戰爭迷霧)。

首先上場的是Liquid戰隊的蟲族選手TLO,目前在Aligulac的世界排名中位列72名。

第一局開始,TLO採用了非常傳統的雙兵營封路開局,偵查到AlphaStar並未封路後,TL0派出使徒騷擾取得了一定戰果。但在進入到中局後,微操完全不敵AlphaStar的TLO被AI單礦一波直接莽穿。

第二局的情形就更一邊倒,AlphaStar選擇了出自爆球進攻,TLO顯得完全沒有應對經驗,自己的部隊被炸成了漫天煙花。

由於時間原因,現場隻演示了這兩場的錄像,想看其他三場對局需要登陸DeepMind網站下載。

AS和TLO的對局算不上精彩,由於TLO的主族是蟲族,使用星靈時完全沒有人類頂級選手的實力,甚至還犯下了業餘選手都不會犯的細節錯誤。

相比之下,AlphaStar和MaNa的對局更有象徵意義。

這場比賽發生在兩周以後(AlphaStar期間加練了相當於人類選手玩400年左右的局數),

MaNa的主族是星靈,其單族排名目前為世界第11,實力在二線職業選手中屬於頂尖。

第一局中,AlphaStar選擇了野兵營Rush,MaNa偵查到了AI的進攻意向,但是在AI極度精湛的小規模微操下並未防守住,打出GG。第二局雙方都選擇了爆鳳凰,MaNa在小規模接戰中被持續壓製,最後被AlphaStar的兵力優勢和無解操作打敗。

之後對局的情形也類似,即在運營沒有明顯落後的情況下,MaNa被AlphaStar用高強度的操作硬吃了個5:0。

但在第六局,也是現場演示的唯一一局中,為了保護人類選手,DeepMind使用了AlphaStar的弱化版本,AI只能先切屏再操作,不能全屏操作。

在對抗這個弱化版的AI時,MaNa發現了AlphaStar似乎完全分析不來“棱鏡偷家”的場面,於是隻用一個棱鏡和兩個不朽就牽製住了AlphaStar的全部兵力。

在拖出自己的高科技部隊後,MaNa一波推平了只會爆追獵的AlphaStar,讓這次AI和人類的對決以10:1收場。值得一提的是,AlphaStar並沒有學會打出“GG”,MaNa只能把AI的建築一個一個拆光取得勝利,讓場面顯得有些尷尬。

一力降十會

雖然以大比分取勝,但AlphaStar有些勝之不武

以第四局為例,AlphaStar選擇了純追獵者部隊的打法,MaNa及時出不朽者(俗稱“不朽爹”,對追獵是優勢對抗)應對。

在針對MaNa主礦的進攻中,可以看到雖然AlphaStar的閃追獵(將受損的追獵閃爍到陣形後排、避免損失)操作極為精湛,但因為兵種劣勢並未取得戰果,甚至讓MaNa防守出了兵力優勢。

此時兵力大優的MaNa轉守為攻,選擇主動出擊。但噩夢一般的畫面出現了,在地圖的中央,AlphaStar的追獵者持續不斷地不同角度出現,牽製住了MaNa的大部隊。

面對從三個方向的戰爭迷霧中殺出的追獵,MaNa完全迷失了進攻重心,不朽者損失慘重,只能回撤,最終因為兵力差距被AlphaStar一舉拿下。

這次“被翻盤”一部分是因為MaNa判斷失誤,在大優的局面下貿然進攻,給了AlphaStar分割包圍的可趁之機。但,這完全是建立在AI超出常人的操作強度上的。

在這段“三線閃追獵”的神仙表演中,AlphaStar的瞬時EPM(每分鐘有效操作數)超過了1000,峰值甚至能達到1600

MaNa在隨後的採訪中也面露苦笑,“這種情況在同水準的人類對局中不可能出現。”

雖然DeepMind對AlphaStar的EPM均值有所限制(基本和人類水準保持一致),但並沒有限制AlphaStar的操作峰值。

這讓AlphaStar在平時的閑散操作中“保存”下來的操作量,在關鍵戰鬥中一股腦地爆發了出來。

MaNa落敗的主要原因,就是在大部分的關鍵戰鬥中被AS遠超人類的操作強度碾壓。即便AlphaStar在策略和運營上有一些亮點,大多也被“神仙操作”的光芒掩蓋了。

另外,即便是限制了AI的EPM峰值,因為AI沒有情緒波動、不會手滑點錯,其操作效率也遠高於人類,同等的EPM下仍然是人類劣勢。

從比賽中我們也能看到,AI對每個追獵的操作都十分精準,攻擊目標的優先級永遠保持在“敵方農民>正在折躍的部門>其他部門”上。

這就有種“你以為你在和AI玩RTS,實際上AI在跟你打MOBA”的感覺。

製造純粹的力量壓製,顯然不是DeepMind創造AlphaStar的意義。

AlphaStar的價值在哪裡?

儘管AlphaStar的勝利很大一部分來自 “超人”的操作,但如果我們拋棄勝負本身,就能看到更有價值的事情——AlphaStar有不少操作和運營的思路和當前的人類選手完全不同,就像它的兄弟AlphaGo下出人類無法理解的棋路一樣。

例如,在用鳳凰對抗機械哨兵和不朽者的混合部隊時,絕大多數人(包括職業選手)的直覺都是用鳳凰“抬”(持續控制)威脅更大的不朽者,但AlphaStar的判斷是抬哨兵效率更高,戰鬥的結果也證實了AI的判斷。

在經濟決策上,AlphaStar選擇在一礦就出到24個農民,這也是人類職業選手從未有過的操作,顯然來自AI的自我學習。有趣的是,賽後的數據統計顯示AlphaStar的策略有著明顯優勢。

雖然AlphaStar的操作過於強力,但和幾年前人工編寫的腳本“悍馬2000”相比,這些操作也都是AlphaStar在和自己的練習中自行學會的。

AlphaStar之所以偏愛出追獵者,正可能是因為它通過學習發現,在極高的操作準確率和高APM下,追獵的操作空間比起其他兵種更大、回報更高。

看完AlphaStar比賽後星際玩家的調侃

雖然目前的AlphaStar在決策上還有很多稚嫩的地方,MaNa也是依靠AlphaStar的經驗漏洞,才取得了寶貴的一勝。

從今天的對局來看,真正的人類頂級選手面對這個版本的AlphaStar顯然是有一戰之力的。如果對AI的操作強度加以限制,人類的贏面會更大。

但DeepMind創造AlphaStar的目的並不是要贏人類,而是借助《星海爭霸2》來研究“雙方資訊不透明”情況下的博弈對抗,進而把學習環境的架構和理念還延伸到其他領域。

而AlphaStar對《星海爭霸2》的征途,已經跨過了最難的“從0到1”那關,接下來的事情,是從1到∞。

假以時日,AlphaStar或許就能像AlphaGo那樣,創造出完全超越人類思路的運營策略,重新改寫人類對《星海爭霸2》的理解。

2月15日,還將有另外一個AI去挑戰目前全球排名第2的世界冠軍Serral。不過,這場比賽可能意義沒那麽大——參賽AI的行為邏輯基於人工編寫的腳本,思考模式並沒有AlphaStar這麽“高級”。

“真正的AI”和“真正的人類頂級選手”之間的戰鬥,還沒有來臨。

獲得更多的PTT最新消息
按讚加入粉絲團