最終決戰！人工智能戰隊OpenAI將戰Dota2人類最強戰隊

機器之心報導

參與：李澤南、李亞洲

OpenAI 今日宣布，它們的遊戲人工智能 OpenAI Five 將於 4 月 13 日與人類進行最終決戰，此次比賽的對手是 Dota 2 世界冠軍團隊 OG。

雖然在去年 8 月的 Dota2 國際邀請賽（TI8）上，OpenAI連續輸給 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥這些中國 Dota 屆元老組成的戰隊，但 OpenAI 並沒有因為挑戰失敗而放棄嘗試。這一次他們直接選擇了與 TI8 上的冠軍團隊過招。

看來在最近 6 個多月的時間裡，人工智能又學會了一些新的技術？

這次比賽的規則類似於 TI8 時 OpenAI Five 與職業戰隊的比賽：

18 名英雄可選：斧王、水晶室女、死亡先知、撼地神牛、矮人直升機、巫妖、巫魔巫師、死靈法師、痛苦女王、剃刀、隱刺、影魔、斯拉克、矮人火槍手、斯溫、潮汐獵人、冥界亞龍、巫醫。鏡像匹配：瘟疫法師、矮人火槍手、冥界亞龍、水晶室女、巫妖。

無聖劍、魔瓶

無召喚物，無幻象

無掃描

值得注意的是，TI8 比賽期間，去除掉了「5 個無敵信使」的限制，因為這個條件會極大的影響遊戲的真實性。

本次 OpenAI Five Finals 賽事直播地址：https://www.twitch.tv/openai

比賽時間：台灣時間 4 月 14 日凌晨 2：30 分（美國太平洋時間 4 月 13 日 11：30）

OpenAI Five：挑戰人類的成與敗

人工智能在圍棋上擊敗人類之後，很多技術人員就開始展望 AI 在視頻遊戲中的表現了。2017 年的 Dota2 國際邀請賽 TI7 上，OpenAI 推出的人工智能橫空出世，在人類巔峰對決的比賽現場 1v1 打敗了世界頂級玩家。

在那場一對一表演賽中，OpenAI 的人工智能打敗了 Danylo "Dendi" Ishutin，一名在職業生涯中贏得超過 70 萬美元獎金的職業玩家。OpenAI 的 bot 在第一場比賽開始約 10 分鐘打敗了 Dendi。在第二場比賽中 Dendi 放棄，並拒絕進行第三場比賽。

Dendi 在比賽前接受採訪，作為第一個在公開比賽中被 AI 擊敗的職業選手，他領教了人工智能在單挑時的應變能力。

單挑可能還不具有太多說服力，Dota2 是一個 5v5 的多人對戰遊戲，很快 OpenAI 就開啟了更為正式的「10 人對決」之旅。2018 年 6 月，這家公司提出的「OpenAI Five」又在 5v5 多人對局中擊敗了由前職業玩家、遊戲解說組成的天梯 6000 分級別戰隊，並宣布會於 TI8 上亮相和真正的職業選手過招，一時吸引了人們的關注。

Dota2 是目前全球最為流行，也最複雜的電子競技遊戲之一。其最負盛名的賽事「TI」每年都會吸引上千萬玩家的關注。

面對 AI 的挑戰，人類躍躍欲試，在 TI8 上很多參賽隊伍都報名想參加 OpenAI Five 的比賽，OpenAI 遇到的第一個對手是來自巴西的戰隊 paiN，後者也是 TI8 決賽階段第一支被淘汰的隊伍。有了 AlphaGo 的「前車之鑒」，人們紛紛預測 AI 穩贏，然而人類職業玩家卻讓 OpenAI 嘗到了失敗的滋味。

paiN 選擇了開霧直接衝進天輝野區，四人圍攻落單的潮汐，搶到了一血。OpenAI 也展示出了人工智能「不聰明」的一面，在塔下不斷插眼。雖然在隨後的比賽中雙方有來有往，但人類玩家逐漸掌握了計算機的套路，在 50 分鐘的比賽後打爆了對方的水晶。

在 Open AI Five 對陣 paiN 的比賽中，人工智能對於自己獲勝概率的預測。

這場失利讓大家對於 AI 的期待有所下降，隨後在第二場比賽中，由 Burning、Xiao 8、430、ROTK 和 Sansheng 組成的「中國 Dota2 元老隊」也順利擊敗了 OpenAI Five，讓人工智能的 TI8 之旅最終以失敗告終。

第二場比賽中，人類用了 45 分鐘拿下勝利，人頭比 48 比 43。

解決 5v5 的核心問題

雖然首次挑戰職業玩家沒有成功，但 OpenAI Five 的嘗試為人工智能領域技術的發展有著很大意義——它解決一個重要問題：強化學習在如此複雜、需要長期策略的遊戲環境下是否依然奏效？

通過自我對抗學習，OpenAI Five 每天相當於玩 180 年的遊戲。訓練上，它使用 256 塊 GPU、12 萬 8000 個 CPU 核心使用近端策略優化（Proximal Policy Optimization）方法進行訓練。當每個英雄使用單獨的一個 LSTM，模型就可以在沒有人類數據的情況下學到可識別的策略。這表明強化學習即使沒有根本性的進步，也能夠產生大規模但也可接受的長期規劃。這出乎了 OpenAI 研究人員起先的預料。

為了訓練每個英雄，OpenAI 使用了兩種機器學習技術：長短期記憶網絡（LSTM）和近端策略優化（Proximal Policy Optimization）。

為什麽使用 LSTM 其實很好理解：打 Dota2 需要長期策略，敵方英雄的每一個當前行為都會對之後的行為產生影響。LSTM 是一種循環神經網絡（RNN），它比普通的 RNN 更適合於處理和預測時間序列中間隔和延遲非常長的重要事件。LSTM 有一個叫做 Cell 的元素，能夠分辨出輸入的信息是否有用，是否需要記住。

每一個 bot 的神經網絡包含一個單層的、擁有 1024 部門的 LSTM，觀察遊戲的局勢然後做出相應的行為。下圖這個互動演示就是可以讓你理解每個 bot 是如何做出指令的，這些畫面就是 Dota 2 的 API 所觀察到的。

如何讓五個神經網絡協作團戰是另一個讓不少人好奇的地方，這其實也是建立在獎勵機制上。OpenAI 為 AI 模型開發了一個叫 Team Spirit 的超參數，數值從 0 到 1，數字越小每個神經網絡就越「自私」，相反則越考慮團隊的整體利益。到最後，OpenAI 發現將 Team Spirit 設置為 1 都能贏得比賽。

在訓練初期，研究員其實會將數值調整的很小，這樣 AI 會更考慮自身的獎勵，學習如何分路、對線、提供金錢和經驗。等到每個神經網絡學會了基本的策略和玩法後，研究員才將數值慢慢提高。

由於所有參數都是隨機，AI 沒有引入任何人類的經驗，所以 AI 沒有 1-5 號位的概念，不會區分輔助和 carry，出裝備也是從頭開始學習。

在第一場遊戲中，英雄漫無目的地在地圖上探索，而在幾個小時的訓練後，出現了規劃、發育或中期戰鬥等概念。幾天后，智能體能一致地採用基本的人類策略：試圖從對手偷財富、推塔發育、在地圖旋轉控制英雄以獲得線路優勢。通過進一步的訓練，它們開始學會了 5 個英雄一起推塔這樣的高級策略。

TI8 冠軍 OG 戰隊

OpenAI 卷土重來，這一次直接選擇挑戰目前人類最強戰隊 OG，展示了自己的強大自信。這次的「最終對決」，OpenAI 直接以 Finals 為名，看來是最後一戰了。更令人興奮的是，它的對手 OG 絕非等閑之輩。

OG 戰隊前身為 Monkey Busniess 戰隊，後被一家遊戲直播平台收購改名為 OG。2015 年，OG 戰隊在決賽中擊敗了 Secret 戰隊，奪得法蘭克福特錦賽冠軍，從此一戰成名。

2016 年，OG 戰隊雖然在上海錦標賽中失利，卻於當年在馬尼拉再次奮起奪得第二個特錦賽冠。

冠軍團隊也並非一帆風順的。在 2016 年 TI 賽慘敗之後，OG 戰隊經歷了一波換血：去掉了 Cr1t-、Miracle-和 MoonMeander，新加入 Jerax、Ana 和 s4。重生之後的 OG 隨即斬獲了波士頓特錦賽的冠軍，之後於 2017 年獲得基輔特錦賽冠軍。

TI5-TI7 期間，OG 取得了 7 個官方特錦賽中的 4 個冠軍，這是一支頂級的世界強隊。

但 OG 真正的傳奇，展現在 TI8 的舞台上。

TI8 自 2018 年 8 月 15 日溫哥華開戰後，OG 先以 2：1 擊敗 PSG.LGD，取得勝者組冠軍。而後，打落敗者組的 PSG.LGD 在敗者組決賽中以 2:0 戰勝 EG 挺進總決賽。TI8 決賽成為了 OG 與 LGD 的恩怨局。

8 月 26 日，在總決賽的精彩對決中，最終 OG 更勝一籌，3：2 贏得 LGD，在全世界面前捧起了 TI 冠軍盾，而 N0tail 與 JerAx 也成功拿下四大聯賽大滿貫。

小結

雖然 TI8 期間，OpenAI Five 與職業選對的「表演賽」輸的慘不忍睹，但讓我們看到了人工智能在遊戲領域的創新與突破。此次 OpenAI Five 最終決戰 TI 8 冠軍 OG，無論結果如何終將為 OpenAI 的 Dota2 遊戲項目劃上一個句號。希望時經一年，OpenAI Five 能帶來更為驚豔的表現。

最後，去年的「大巴黎，咚咚咚」，今年上海 TI 9 加油啊……小編要去現場！！！