vivo公布AI研究新進展：教會手機打《王者榮耀》

只有一顆做手機的心，肯定是做不好手機的。

1月25日凌晨，一場史詩級人機大戰“悄然開場”，代表機器參賽的是Google旗下AI大公司DeepMind開發的全新AI程式AlphaStar，另外一方是2018 WCS Circuit排名13、神族最強10人之一的人類選手MaNa。

結果也正如2年多前的圍棋AI AlphaGo（同樣由DeepMind開發）一般，AlphaStar以10：1的戰績，“完虐”人類職業高手。

要知道，“星際2”這款遊戲比圍棋又複雜上了許多：例如動作的種類，圍棋只有361個下棋位置，星際2算上各種技能和走位控制，即便一個84x84分辨率的小螢幕，也有一億多種可能的操作。同時，在玩“星際2”的過程中，玩家並不能看到整個戰場的資訊，你甚至還要猜測、估算對方的行動，來進行你自己的規劃和決策。

這麽難都能打贏人類，AI這幾年來取得的進展“可見一斑”。

事實上，因為人類一直對AI不完全掌握，再加上AI技術和應用探索的過程中往往需要大量的數據，可以隨意試錯、擁有大量人類數據的電子遊戲，一直被視為人工智能最好的實驗平台之一。因為遊戲本身就是認為創造的，用以幫助人來習得某個技能或者測試技能水準的工具。

在某些特定的人工智能方向，如自動駕駛，人們甚至還會專門認為創造一個類似於電子遊戲的虛擬世界，用來作為訓練人工智能的環境。

除了上文所提到的DeepMind之外，很多國內公司實際上也在進行著在遊戲環境中訓練人工智能的嘗試，其中就包括了vivo，他們所瞄準的正是國內最多人玩的手遊之一：《王者榮耀》。

訓練AI打《王者榮耀》這件事

代表vivo向《王者榮耀》發起AI衝擊的，是2018年7月成立的“vivo AI Lab”，後者的建立是vivo在2018年年初的vivo戰略發布會上就已經做的決定。

本次“vivo AI Lab”所使用的強化學習架構

在本次對《王者榮耀》挑戰的背後，“vivo AI Lab”專門提出並使用了一種全新的分層強化學習模型。這種神經網絡模型既能夠通過模仿人類來制定巨集觀策略，同時還能根據強化學習來保證微觀操作。尤其適應即時戰略遊戲（RTS）對於操作的需求。

就《王者榮耀》而言，關鍵性的大局觀包括單元“去哪兒”、“應該何時去支援隊友”、“隊友應該何時一起參加團戰”等。重要的精細化操作則包括“何時閃現”、“何時交出大招”、“多人團戰中應該如何精細走位”、“團戰中應該如何釋放技能”等。

這兩種操作需求實際上相差很大，大局觀層面其實很難量化和計算，所以主要的是先參考人類的數據，進行模仿學習和專家引導。在精細化操作的時候，“vivo AI Lab”直接使用了一種被叫做“多智能體”的強化學習方法。你可以把它看做成百上千個機器人在虛擬團戰走位、技能釋放等操作，其中只有表現最好的能夠留下來。通過不斷的對壘，機器自然而然就學會了最優的操作方式。

最終訓練出來的結果：觀察到電腦開大，馬上閃現然後反身開大，一氣呵成（圖中方框為影像識別對象框）

根據“vivo AI Lab”官方公布的成果，經過這一系列神經網絡訓練出來的模型，1V1模式下能以100%的勝率擊敗遊戲中的內置AI，同時能夠在5V5模式下以AI戰隊的形式表現出較好的協同性能。

除了遊戲AI外，vivo還“做”了更多

在實驗全新深度學習模型的同時，“vivo AI Lab”還更具挑戰性地選擇了一條更難的路徑——不使用遊戲的API接口，而是選擇直接從影像監測並獲取遊戲中的各種特徵數據。

之前DeepMind、OpenAI、騰訊AI Lab等公司和機構都曾在電子遊戲上發起人工智能挑戰，基本都採用了遊戲的API接口。人工智能無需經過影像分析等手段就可以直接獲知遊戲中各個部門、環境的數據，可以說算是某種程度上的“作弊”。

“AlphaStar”獲取的遊戲數據，明顯非常簡潔

以遊戲表現上最出色的DeepMind的“AlphaStar”為例，它並沒有直接從影像中獲取部門的資訊，而是從遊戲引擎裡面讀取特徵資訊，這些影像直接標記了哪裡是兵或者工廠。

“vivo AI Lab”專門為采集遊戲數據所打造的一套深度學習網絡

“vivo AI Lab”則選擇了用另外一套深度學習網絡來捕捉《王者榮耀》中5個英雄的特徵，具體的來說，就是把5個英雄對應的大地圖和小地圖數據，通過卷積神經網絡提取資訊，結合多目標檢測提取的特徵向量，再輸入到上文所提到的分層神經網絡當中。然後各個英雄根據自身狀態環境，決策出不同的動作，實現在各自情況下的對應操作。

雖然這個過程不起眼，但實際上卻可能對人工智能的表現起到很大影響。畢竟實際用戶都是通過手機顯示的影像來獲取資訊的，假如人工智能都從API接口來獲取資訊，你又怎麽能保證這些資訊的層級和精準度都是跟人類從影像中獲取的一致？

之所以vivo這次額外花力氣填補這一流程，正是想讓人工智能能夠完整模擬人類從看到螢幕上影像，到實際操作的全過程，讓人工智能的運轉環境條件更接近普通用戶。

分布式神經網絡訓練環境

為了實現同時對多個英雄數據進行采集，並且提高整個《王者榮耀》人工智能模型的采樣效率，樣本多樣性和訓練速度，“vivo AI Lab”還搭建了一整個“分布式強化學習環境”：手機負責遊戲的運行、動作執行和數據采集；電腦負責連接手機和伺服器，進行強化學習算法選擇、動作決策單元的運轉；雲端的GPU伺服器集群負責整個神經網絡的運行和存儲。

而在這個環境中，“vivo AI Lab”還更具普適性地直接使用了全開源的gRPC技術，這種技術是HTTP 2.0時代的基礎底層數據框架。這也讓整個“分布式強化學習環境”具有極大的網絡化潛力。

超越成績的一次嘗試

手機廠商來做遊戲的AI，乍一聽真的會讓人摸不著頭腦，畢竟最終訓練出來的AI也不太可能被應用到遊戲或是真實當中。

但從“vivo AI Lab”此番挑戰的細節來看，你也很難將其簡單地歸為“做遊戲AI”。以選擇不使用遊戲的API接口、轉而從遊戲界面的影像獲取數據為例，這不僅僅是一個技術上的挑戰，更是vivo著眼於此次AI嘗試未來的適用性。

因為整個深度學習過程中的數據都是從手機終端直接采樣而得，除了其他玩法類似、基礎操作需求相近、影像識別相近的遊戲外，vivo還能利用與本次嘗試相同的架構（手機影像識別+特定深度學習神經網絡+深度學習網絡化環境），對手機中的各種場景進行學習歸納。最終讓vivo手機從方方面更懂你。

其次是採用gRPC技術來構建整個人工智能學習環境的數據傳輸，要知道在當下的人工智能發展過程中，“如何采集到足夠的樣本數據”和“如何讓盡可能多的用戶用上花大力氣訓練出來的神經網絡”，仍是關鍵性的難點所在。想要解決他們，“網絡化”是唯一可行的路徑。

所以整體看下來，與其說是vivo在做一次遊戲AI的嘗試，倒不如說是一次面向未來手機人工智能發展的嘗試。

這種前瞻且大膽的嘗試，也是vivo一直所堅持的，早在2018年3月，vivo就在X21上首次發布了“Jovi”人工智能助手，能夠在螢幕中直接識別人物、快遞、景點地址、網址等關鍵資訊；負一屏的“智慧場景” ，更能有效地將通勤時間、票務酒店預訂、步數、氣象等資訊進行整合展示。2018年9月，vivo發布的全新IoT戰略“Jovi物聯”，更讓Jovi能夠方便地適配一系列智能家居產品，讓Jovi成為“把人和數字世界聯繫在一起”的控制核心。

因為在世界不斷數字化的當下和未來，人的認知愈發難以跟上數據膨脹的速度，借助AI來提升人類的能力將會是一個重要的解決方案。而vivo，顯然想要幫助自己的用戶首先成為這一類人。