每日最新頭條.有趣資訊

《王者榮耀》也被AI攻陷 勢把人類頂級玩家拉下馬

新智元報導

來源:arXiv

編輯:三石、大明

【新智元導讀】騰訊AI Lab團隊在arXiv發表論文,通過對AI進行訓練,並與《王者榮耀》頂級人類玩家PK,最後獲得了48%的勝率。

終於,AI還是對《王者榮耀》下手了。

19日,騰訊AI Lab團隊在arXiv上發表文章,訓練AI大戰人類玩家,而此次所選擇的遊戲,正是火遍大江南北的手遊——《王者榮耀》。

論文地址:https://arxiv.org/pdf/1812.07887.pdf

騰訊團隊表示,遊戲AI的下一個挑戰是即時策略(RTS)遊戲。在與頂尖人類玩家大戰250回合之後,取得了48%的勝率

AI“殺戮”王者峽谷

近年來,微觀層面的操作取得了很大的進步,但巨集觀戰略的完整解決方案仍然缺乏。

騰訊AI Lab團隊提出了一種新的基於學習的分層巨集觀策略模型,用於掌握RTS子類型遊戲——MOBA遊戲。

在層次巨集觀戰略模型的訓練下,智能體能夠明確地做出巨集觀戰略決策,並進一步指導其微觀層面的操作。

此外,每個智能體都可以在做出獨立的戰略決策的同時,通過利用一種新穎的模仿交叉通信機制與盟友進行溝通。

團隊從《王者榮耀》職業聯賽(KPL)比賽和訓練中收集了30萬個遊戲回放記錄。最後,用於訓練的實例數量鋼彈2.5億個。

在視覺方面,團隊提取了85個特徵,例如所有部門的位置和生命點,然後將視覺特徵模糊為12*12的分辨率;在屬性方面,團隊提取了181個特性,如英雄角色、遊戲時間、英雄ID、英雄的金幣和等級狀態以及死亡、助攻量統計。

團隊將卷積層和完全連接層混合使用,分別從視覺和屬性特徵方面獲取輸入。

而如何開局是MOBA最重要的策略之一。

下圖展示了通過模型學到不同英雄的開局注意力。每個子圖由兩個正方形組成。左側方形圖表示右側MOBA mini-map的注意力分布。

從左至右分別是貂蟬(法師,中路)、韓信(刺客,打野)、亞瑟(戰士,輔助)、後裔(射手,下路)。

根據注意力預測,貂蟬將去中路,韓信將去藍Buff區域,亞瑟和後裔將去紅Buff區域,除此之外,宮本武藏(戰士,上單)將去上路發育。

這樣的開局策略在《王者榮耀》中非常流行。

隨著遊戲的進行,注意力的分布是會發生變化的,如下圖所示:

為了體現巨集觀策略、跨智能體通信機制以及相位層的重要性,團隊設計了如下實驗進行比較:

團隊刪除了巨集觀策略,並加入錄像中的微觀操作來訓練模型。微觀模型的設計類似於OpenAI Five;

在沒有跨智能體通信機制的情況下,將HMS與經過訓練的HMS進行匹配;

刪除相位層,並將其與完整版HMS進行了比較;

為了更準確的評估AI的表現,還邀請了250位人類玩家團隊,他們的排名處於前1%。同樣,遊戲規則和正常玩法一樣,也會涉及BAN英雄。

其結果如下表所示:

比賽統計。250場比賽是針對人類玩家,40場比賽分別針對無巨集觀策略、無交流和無階段的比賽。

MOBA遊戲介紹:以《王者榮耀》為例

MOBA類遊戲現在佔世界網絡遊戲市場的30%,Dota、《王者榮耀》、《英雄聯盟》均屬此類遊戲。MOBA類遊戲在PC遊戲和移動平台遊戲市場上均排名首位。

一局標準的遊戲是5V5的組隊對抗賽,每個玩家控制一個部門,即英雄。王者榮耀中有80多個英雄可供選用,每個英雄有不同的戰鬥特點和技能。玩家在遊戲控制英雄移動,並釋放技能。

如圖所示。玩家使用左下角轉向按鈕來控制移動,而右下角則設定按鈕來控制技能。可通過主螢幕觀察周圍環境,還可以通過左上角迷你地圖了解完整的地圖情況,其中可觀察的炮塔,小兵和英雄顯示為縮略圖。只有當他們是盟友的部門或與盟友部門相距一定距離內時才能觀察到該部門。

每個隊都有三組防禦塔,每路各有三個塔。地圖上還有四個叢林區域,可以收集資源以增加金錢和經驗。每個英雄都以最低金幣值和等級1出生。兩隊都試圖利用資源獲得盡可能多的黃金和經驗,以購買物品和更新。最終目標是摧毀敵人的基地。 MOBA的概念圖如圖所示。 1B。

要想精通MOBA遊戲,玩家需要具備出色的巨集觀策略操作和熟練的微操。常見的巨集觀策略包括開放,限制,傳遞消息,伏擊等。熟練的微觀層面執行需要高度的控制準確性和對技能的損害和影響的深刻理解。巨集觀策略操作和微觀層次執行都需要掌握優秀的時機,這使得它極具挑戰性和趣味性。

(a)《王者榮耀》的遊戲UI。玩家使用左下角轉向按鈕來控制動作,而右下角則設定按鈕來控制技能。玩家可以通過螢幕觀察周圍環境,並使用左上角查看小地圖。(b)MOBA的示例地圖。這兩支隊伍的顏色為藍色和紅色,每個隊伍有9個炮塔(圓圈)和一個基地(方塊)。四個叢林區域的編號從1到4

下面以《王者榮耀》為例,對MOBA的計算複雜度進行量化。

MOBA遊戲計算複雜度的量化

一局《王者榮耀》一般遊戲長度約為20分鐘,即遊戲核心約為20000幀。在每一幀中,玩家需要在數十個選項中做出決定,包括24方向的移動方向控制,以及向相應的位置/方向上釋放技能等。即使具有顯著的離散化和簡化處理,並將最快反應時間增加到200ms,需要處理動作空間也達到101500

至於狀態空間,王者榮耀地圖的分辨率是130,000*130,000像素,每個部門的直徑是1000像素。在每一幀上,每個部門可能有不同的狀態,如生命值,等級,金幣數量等。同樣,狀態空間大小為1020,000。下表中列出了MOBA和圍棋之間的動作空間和狀態空間複雜度的比較。

MOBA遊戲中AI的巨集觀戰略架構

我們設計MOBA AI巨集觀戰略模型的動機源於人類玩家如何做出戰略決策。在MOBA遊戲中,經驗豐富的人類玩家完全了解遊戲的每個階段,例如開局階段,推線階段,遊戲中期和遊戲後期階段。在每個階段中,玩家都會關注遊戲地圖,並根據英雄的位置做出相應的決定。例如,在推線階段,玩家傾向於更多地關注自己所在的路,而不是去支持隊友,而在中後期階段,玩家更多地關注團戰點,並推向敵人的基地。

綜上所述,我們將巨集觀戰略運作過程表述為“階段識別 - >關注預測 - >執行”。為了模擬這個過程,我們提出了一個兩層的巨集觀策略架構,即階段層和注意力層:

?階段層負責識別當前的遊戲階段,以便注意力層可以更好地了解應該注意的位置。

?注意力層旨在預測遊戲地圖上的最佳區域,將英雄移動至該區域。

階段層和注意力層充當微級執行的高級指導。我們將在下一節中描述建模的細節。微觀模型的網絡結構幾乎與OpenAI Five1中使用的網絡結構相同,但是採用監督學習方式。我們做了一些小修改,以使其適應王者榮耀,比如刪除了瞬移技能。

分層巨集觀戰略模型

我們提出了一種分層巨集觀策略(HMS)模型,以在統一的神經網絡中考慮階段層和注意力層。我們將首先介紹統一的網絡架構。然後,我們將說明如何構建每個階段層和注意力層。

概述

我們提出了一種分層巨集觀策略模型(HMS),將注意力層和相位層作為多任務模型進行建模。它將遊戲功能作為輸入。輸出包括兩個任務,即將注意力層作為主要任務,階段層作為輔助任務。注意力層的輸出直接將巨集觀策略嵌入,傳遞給微觀模型,而資源層則作為一個有用的任務,細化注意力層和階段層任務之間的共享層。 HMS的網絡結構如圖所示。

HMS將影像和矢量特徵作為輸入,分別承載視覺特徵和全局特徵。在影像部分使用卷積層。在矢量部分使用全連接層。影像和矢量部分合並在兩個單獨的任務中,即注意力層和階段層。最終,注意力和階段任務從共享層通過自己的層輸出,並輸出到計算損失。

注意力層

與玩家根據遊戲地圖做出決策的方式類似,注意力層會預測智能體移動的最佳目標區域。但是,從數據中判斷出玩家的目的地在哪裡是很困難的。我們觀察到,發生攻擊動作的區域可以指示玩家英雄的移動目的地。根據這一觀察,我們將地面真實區域定義為玩家進行下一次攻擊的區域。如圖所示。

設s為包含多個幀的遊戲中的一個會話,s-1表示s之前的會話。 s - 1是遊戲中的第一個會話。讓ts成為s的起始框架。請注意,會話以攻擊行為結束,因此在英雄進行攻擊的ts中存在區域y。如圖所示。s-1的標簽是ys,而s的標簽是ys + 1。直觀地說,以這種方式設定標簽,是希望智能體學會在遊戲開始時移動到ys處。

階段層

階段層旨在識別當前的遊戲階段。提取關於遊戲階段基礎資訊是很困難的,因為人類玩家使用的階段定義是抽象的。雖然遊戲階段與時間大致相關,但是更多取決於對當前比賽情況的複雜判斷,這使得想從重放錄像中提取真實的比賽階段資訊非常難。

幸運的是,我們觀察到遊戲階段與主要資源數量之間的存在明顯的關聯。例如,在開局階段,玩家通常會瞄準外塔和baron,而在遊戲後期,玩家會操縱目標摧毀敵人的基地。

因此,我們對主要資源進行階段性建模。更具體地說,主要資源表示炮塔、baron、龍和基地。我們在圖4A得標出了地圖上的主要資源。對階段層的標簽定義類似於注意力層。唯一的區別是,階段層中的ys表示對炮塔,baron、和基地的攻擊行為,而不是區域。我們不會將其他資源(如英雄、小兵和中立生物)視為主要目標,因為通常這些資源是為了實現更大的目標,例如摧毀炮塔或基地。

對多智能體間的通信的模擬

多智能體間的通信對於智能體團隊合作至關重要。關於多智能體強化學習研究中的通信問題已有很多研究文獻。然而,在監督學習中使用訓練數據來學習通信是具有挑戰性的,因為實際的通信情況是未知的。

為了使智能體能夠在監督學習環境中進行通信,我們設計了一種新的通信機制。在訓練階段,我們將盟友的注意力標簽作為訓練特徵。在測試階段,我們將盟友的注意力預測作為特徵進行相應的決策。通過這種方式,我們的智能體可以實現彼此“溝通”。

論文地址:

https://arxiv.org/pdf/1812.07887.pdf

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備注(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

獲得更多的PTT最新消息
按讚加入粉絲團