每日最新頭條.有趣資訊

OpenAI 2:0擊敗OG,“菜雞”小編上手體驗

機器之心報導

機器之心編輯部

在 OpenAI Dota2 項目最終的決戰中,OpenAI Five 2:0 戰勝 Dota2 職業戰隊、TI 8 冠軍 OG。此外,OpenAI還將在4月18-21日期間把OpenAI Five開放給玩家,注冊就能體驗。炫耀一下,小編現場體驗了一把。

3 月底,

OpneAI 官方宣布挑戰 Dota2 職業戰隊

、TI 8 冠軍 OG,這是 OpenAI Dota2 項目的最後一戰。先前,機器之心曾介紹過 OG 是 Dota 界一支頂級的戰隊,TI5-TI7 期間,該隊取得了 7 個官方特錦賽中的 4 個冠軍。在 2018 年的 TI8 中,3:2 贏得 CN Dota 戰隊 LGD。雖然,機器之心讀者吐槽如今的 OG 完全是一支魚隊,但這次比賽中選手 Ana 歸來,實力並不弱。

剛剛,這場終極對決結束,OpenAI Five 2:0 戰勝職業戰隊 OG。

2:0 OG 慘敗

先介紹下比賽規則的調整。

據先前 OpenAI 部落格介紹,此次比賽規則類似於 TI8 時 OpenAI Five 與職業戰隊的比賽但略有調整,可選擇的英雄從去年的 18 位降為 17 位,無幻象,無召喚物。據 OpenAI 介紹,針對 dota2 最新的版本更新,OpenAI Five 訓練了幾周。

第一場比賽,雙方陣容選擇如下:

OpenAI Five:火槍、飛機、冰女、DP、斯溫

OG:小牛、巫醫、毒龍、影刺、影魔

系統給出的 OpenAI Five 的勝率為 67.6%。

比賽開始後,開局搶錢,OpenAI Five 拿下一血。而後雙方在戰線階段,雙方打的勢均力敵,經濟與人頭數一度拉平。不久之後,OG 河道一波失誤,導致丟失中路二塔與高地。

24 分鐘,毒龍上路帶線被抓,隊友支援不成反而引發團滅。

32 分鐘下路一波團,OG 慘敗,在掙扎了幾分鐘後,三路被破而後 GG,擊殺數為 52:29。

「人類的希望」OG 第一局敗北。

第一局比賽,不談人類的「表演」(如從頭送到尾的毒龍),我們可以從中觀察到 OpenAI Five 存在的一些問題,例如:

因英雄選擇限制,陣容搭配與分路都不常規;

DP 中路打影刺,不插真眼;

因為隱身英雄的存在,OpenAI Five 學習插真眼存在問題;

毫無道理的買活;

用雞習慣極差。

但相比於 2018 年 TI 8 時期,OpenAI Five 的確增強了許多,如團戰打的更好,做視野的能力也有所提升。

進入第二局比賽,雙方改換陣容。OpenAI Five 選擇了冰女、飛機、斯溫、巫醫和毒龍,OG 選擇了火槍、小牛、DP、小魚和 lion。

此局比賽,OpenAI Five 預測勝率為 60.8%。

開局,人類玩家上下兩路劣勢,10 分鐘左右擊殺數大為落後(3:11),經濟落後 5000 左右。

14 分鐘上高

14 分鐘,OpenAI 上路殺人、拿塔、破高地,OG 的兩位大哥已經沒時間發育了。不到 21 分鐘,OG 基地被破,6:46 的擊殺數被 OpenAI 完虐。

在 TI 8 敗給職業玩家之後,OpenAI Five 終於證明了自己,2:0 戰勝職業戰隊。而 OG 的表現,在觀眾看來真的淪為了魚腩隊,或者未發揮全部實力,僅僅參與了一場表演賽。

「菜雞」小編上手

受 OpenAI 邀請,機器之心小編也上手了一把和 AI 大戰的好戲。

事先聲明,小編玩 Do 齡 8 年,但 Dota 2 幾乎沒有玩過,Ehome 粉絲,新版本英雄技能完全不熟悉,導致選英雄的時候果斷選了死靈法師,以為可以用大招遠程直接帶走對方殘血 AI 為機器之心爭光,結果……

機器之心「菜雞」小編挑戰 OpenAI Five

往事不堪回首,先談一波感受:

首先,這場 Demo 是常規的 5V5 作戰,規則和 OpenAI vs OG 的規則一樣,只不過小編沒有人類隊友,而是配了 4 個 AI 一隊。是的,人類可以和 AI 組隊。

雙方陣容有四位相同英雄:巫醫、潮汐、小牛、直升機,OpenAI Five 另一位英雄為死亡先知。小編的死靈法師上手樹枝大補藥加一個智力頭盔,中路出門對線死亡先知。

結果,對線期完全被壓製,而且除了用技能之外一個正補反補都沒有……當然死亡先知中路本身壓製就比較有優勢,而且 AI 幾乎沒有犯什麽錯誤。

無奈之下,小編只有叫小弟幫忙:輸入 Lane Gyro Mid,在上路由 AI 控制的矮人直升機回復:收到老大,馬上來。兩個英雄對線後,情況馬上好轉。

升了 6 級,買了鞋子之後,對方 AI 開始推中路和上路。和 AI 交流還是有些問題,對方開始中推我們卻無法集中防守。之後兩波團戰小編除了加血和嘗試放大招失敗後,死了兩次,沒有任何收獲。

時間原因,Demo 在 12 分鐘結束,人頭比 1:8,菜雞小編慘敗,12 分鐘 KDA 0/2/1。

總的來說,AI 在對線期幾乎不給人類玩家任何機會,但過了對線期,AI 的套路似乎只有上路或者中路集中推塔。在 10 分鐘的時候,對方的死亡先知就開始打 Roshan,打到殘血之後無功而返,小編也不明白 AI 是怎麽想的。

最後,你是不是也想體驗一把?在比賽結束後,OpenAI 宣布將在 4 月 18-21 日把OpenAI Five開放給玩家,注冊就能與朋友一起組隊挑戰OpenAI Five或者與OpenAI Five組隊玩遊戲。

OpenAI Five 視角

OpenAI 在 Dota 2 的研究上已經走過了兩年多的時間,最初在2017年8月份,OpenAI構建的智能體就在Dota2 一對一表演賽中戰勝了頂級職業選手。隨後在一年後,該智能體於5 v 5 團隊賽中擊敗業餘人類玩家,這是OpenAI Five強化學習模型第一次展現它的強大能力。當時OpenAI Five通過Self-Play方法,每天都相當於玩了 180 年的遊戲。

隨後,OpenAI Five 就開始嘗試在 5v5 團隊賽中挑戰頂尖團隊,它希望和人類遵守相同規則、獲取類似地圖信息的情況下取得更多的創造性。如下為 OpenAI Five 的發展歷程,今天的這場比賽是它與人類的最終決戰。

如上圖所示,從 OpenAI Five 也一直在進步。18 年 8 月份 TI 8 時期,OpenAI Five 的參數量約為 4 千萬,相當於人類玩了「一萬年」的 Dota 2 遊戲。而到今天,OpenAI Five 的參數量約為 1.6 億,相當於人類玩了「4 萬 5 千年」的 Dota 2 遊戲。

其實在每一局中,OpenAI Five 獲得的信息和人類是一樣的,但前者可以實時看到位置、生命值和裝備清單等,而這些信息都需要人類選手去手動查看。在今天比賽開始之前,OpenAI Five 的研究者就展示了人類與 AI 眼中的遊戲,雖然信息上它們是等價的,但形式有很多不同。

OpenAI Five 團隊曾表示能使用強化學習與LSTM網絡構建 Dota 2 智能體也非常出人意料。因為如果每個英雄用單獨的 LSTM,那麽模型在沒有人類數據的情況下學到可識別的策略。這表明強化學習即使沒有根本性的進步,也能夠產生大規模但也可接受的長期規劃。

總的而言,OpenAI Five 擊敗頂尖人類團隊 OG 主要需要解決三大核心問題:長線策略、獎勵機制、團隊協作。

首先對於長線策略,Dota 遊戲平均每秒 30 幀,一場時常 45 分鐘,大部分操作(例如操縱英雄移動)都有單獨的小影響,但一些個體行為可能會影響到遊戲戰略。所以不論是通過 LSTM 選擇短期操作,還是通過類似 AlphaGo 中的「價值網絡」制定長期戰略,它都需要學會局部操作與後續戰術的關係。

其次由於 OpenAI Five 使用強化學習進行訓練,那麽設定合理的獎勵(Reward)就處於核心問題了。OpenAI Five 的獎勵主要由衡量人類如何在遊戲中做決策的指標組成:淨價值、殺敵數、死亡數、助攻數、最後人頭等。同時還需要構建一個指數衰減超參數,以決定智能體究竟是關注長期的獎勵還是短期的獎勵。

最後對於團隊協作,我們希望五個獨立智能體能共同完成一些戰術。OpenAI Five 沒有在各個英雄的神經網絡之間搭建顯式的溝通渠道,團隊合作由一個稱之為「團隊精神」的超參數控制,該超參數從 0 到 1 表示關注團隊平均獎勵的程度。OpenAI Five 的早期訓練該值比較小,因此智能體更關注自身發展,後面逐步增加該值以令智能體更關注團隊協作。

因為智能體的龐大動作空間、觀察空間和不完美信息,Dota 2 遠比圍棋等遊戲複雜,它還有更多的問題需要解決。在擊敗 OG 後,OpenAI Five 和強化學習還有很長的路要走。

獲得更多的PTT最新消息
按讚加入粉絲團