每日最新頭條.有趣資訊

騰訊AI王者榮耀戰勝職業選手,24小時訓練強度達人類400年

在昨日晚上於吉隆坡舉辦的王者榮耀最高規格電競賽中,騰訊的王者榮耀 AI“絕悟”取得里程碑成績——在職業選手賽區聯隊 5V5 水準測試中獲勝。

騰訊表示,“絕悟”達到王者榮耀電競職業水準,長線策略及團隊協作能力全面提升。“絕悟”1V1 版本也於今日登陸 China Joy,向其他玩家開放體驗。首日的504 場測試中,“絕悟”測試勝率為 99.8%,僅輸 1 場(對方為王者榮耀國服第一後裔)。

“絕悟”的團隊版本和 1V1 版本兩次的成績證明,在遊戲 AI 的開發上,騰訊的深度強化學習、多智能體決策智能的研究又達到新的水準。

“絕悟”寓意絕佳領悟力,其技術研發始於 2017 年 12 月,由騰訊 AI Lab 與王者榮耀共同打造,騰訊 AI Lab 將通過論文等形式進一步分享技術細節。而在應用上,“絕悟”背後的研發經驗,可在探索 AI 結合電競、農業、醫療及智慧城市等廣闊領域釋放潛力。

(來源:騰訊)

據介紹,此次測試的“絕悟”版本建立了基於“觀察-行動-獎勵”的深度強化學習模型,無需人類數據,從白板學習(Tabula Rasa)開始,讓 AI 自己與自己對戰,一天的訓練強度高達人類 440 年。AI 從0到1摸索成功經驗,勤學苦練,既學會了如何站位、打野、輔助保護和躲避傷害等遊戲常識。

另外,類似當年的圍棋 AI AlphaGo,這次的王者榮耀 AI 也探索出了不同於人類常規做法的全新策略。團隊還創建 One Model 模型提升訓練效率,優化通信效率提升 AI 的團隊協作能力,使用零和獎懲機制讓 AI 能最大化團隊利益,使其打法果斷,有舍有得。

遊戲中測試的難點,是 AI 要在不完全信息、高度複雜度的情況作出複雜快速的決策。在龐大且信息不完備的地圖上,10位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇,這帶來了極為複雜的局面,預計有高達 10 的 20000 次方種操作可能性,而整個宇宙原子總數也只是 10 的 80 次方。

若 AI 能在如此複雜的環境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、複雜的真實環境中發揮更大作用。因此業界認為下一個 AI 里程碑,可能會在複雜策略遊戲中誕生。世界頂級科技公司均在推進此類研究,如Google Deepmind(星海爭霸2)、Facebook(星海爭霸2) 及 Open AI(Dota 2)等。

在遊戲領域,從 MOBA 的角度,網上有一個玩家們玩笑般的“鄙視鏈”:玩 Dota 的和玩 LOL 的互相看不上眼,但又一同瞧不上玩王者榮耀的。這其實是從三個遊戲的玩家分別對競技層面的分析結論,簡單總結,就是遊戲的競技和操作難度從Dota、LOL,再至王者榮耀是依次下降的。

追其根源,遊戲廠商從設計遊戲的角度隨著時代的發展和盈利的需要,一定程度上要獲得更廣大的玩家群體,勢必要降低一些遊戲難度上的門檻。同時,王者榮耀與Dota、LOL 不同,本身是針對手機等移動設備的遊戲。所以在操作層面對玩家的包容度較高,當然有部分英雄因其技能設計而有更高的操作難度,如果玩家對這類英雄達到一定操作水準,在遊戲戰局中取得優勢也是相對容易。

這次的人類與 AI 在王者榮耀裡的對抗,在英雄層面是有一定限制的。5v5 版本是此次固定為十個英雄可選範圍(王者榮耀目前共 94 名可用英雄),這樣一來,職業選手的許多戰術套路無法實施。一些高操作難度、高回報率的英雄無法登場,也會相應限制職業選手的發揮。

而王者榮耀的對抗在頂尖層級的較量上,更為看重的是就對整體局勢的運營、關鍵時間節點上對戰術決策的判斷。基於和AI對戰的前提,在不考慮操作層面上失誤帶來的局面變化,對英雄選擇的限制減少了職業選手玩出“騷套路”的機會,有利於AI 做戰術決斷。畢竟,職業戰隊選手比拚能力的關鍵點之一就是“英雄池”,有些實力超群的選手會被人稱為“英雄海”就是很高的讚揚了。

但總體而言,和 DeepMind、OpenAI 等團隊研究遊戲 AI 的動機一樣,騰訊 AI Lab 開發這款王者榮耀 AI 的最終目的是要探索通過深度強化學習打造通用人工智能。

深度強化學習是人工智能研究的一個令人興奮的領域,這個領域在許多問題上都具有潛在的適用性。因此業內有觀點認為,深度強化學習是通往通用人工智能的一條道路,因為它通過探索和接收環境的反饋來反映人類學習。

近年來,一系列基於深度強化學習的遊戲 AI 打敗人類玩家的消息,以及雙足智能體學習在模擬環境中行走,都提高了人們對該領域的熱情。各大團隊打造遊戲 AI 過程中的經驗、方法與結論,也有望在大範圍內,如醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。

與基於已知標簽訓練模型的監督學習不同,在深度強化學習中,研究人員通過讓智能體與環境互動來訓練模型。當智能體的行為產生期望的結果時,例如智能體獲得獎勵得分或贏得一場比賽,它會得到積極的反饋。簡單地說,研究人員加強了智能體的良好行為。不過,將深度強化學習應用於實際問題的關鍵問題之一是構造一個激勵函數,該函數鼓勵期望的行為而不存在副作用,這方面仍有挑戰。

-End-

關注 DeepTech

發現改變世界的新興科技

(微信號:deeptechchina)

獲得更多的PTT最新消息
按讚加入粉絲團