栗子 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
AI組隊,比人類戰隊的成績好。
AI與人類組隊,還是遠超人類。
DeepMind為了訓練強化學習AI的團隊協作能力,選擇了雷神之錘3競技場的奪旗遊戲。
從去年到今年,AI不斷進化:
如今,把反應速度降到和人類水準,把標記準確率也降下來,勝率依然超過人類。
而AI學習的資源,也只有第一視角看到的遊戲場景,以及比分,沒有比人類獲得更多信息。
當AI贏了柯潔,我們說AI不會合作;當AI贏了刀塔2世界冠軍,我們說是冠軍太魚反應速度不公平。
但現在,我們只能看著DeepMind登上最新一期的Science。
然後,觀察一下這些既懂得相互協作、又懂得和人類協作的AI,是怎樣修煉出來的:
嚴酷的訓練場
奪旗遊戲(Capture the Flag) 是這樣的:
兩隊各有自己的大本營,目標是把己方的旗守在大本營,並拔掉對方的旗。
如果我是藍方,看見敵人扛著藍旗跑,就要用雷射標記它。
這樣,藍旗會失而復得,敵人也會被送回它的老家。
五分鐘內,哪一隊拔掉對方更多的旗,這一隊就贏了。
原本,雷神之錘3競技場裡只有5張地圖;團隊競技場,也只有幾十張地圖。
為了讓AI受到更加嚴格的訓練,DeepMind隨機生成了許多遊戲裡原本沒有的地圖:
就在這樣的競技場裡,DeepMind同時訓練了30隻智能體,主要原理是LSTM。
這30隻AI選手,一共打完了45萬場遊戲。
在這個過程中,還要不時淘汰掉表現不佳的AI,用頂尖AI選手的變異版本 (Mutations) 代替。這是進化算法的思路。
最終,選出最優秀的一隻AI,取名For the Win (FTW) 。
除了碾壓人類,還會利用遊戲bug
然後,就該測試FTW的實力了。
首先,是人機混戰:DeepMind找來40個人類,與AI隨機組隊。
結果,AI選手的個人勝率遠超人類:
研究人員發現,AI不但能同人類/AI協作,還形成了經典的團戰策略:
比如,跟在隊友身後,這樣一旦與敵人交火,便能在人數上超過對手。
還有,在敵人大本營附近遊蕩,當隊友拿到旗子的時候可以迅速接手往回跑。
除了這些人類常用套路之外,AI還發明了全新策略:
利用遊戲裡的一個bug,從背後向隊友射擊,能加快隊友的速度。
除了看到現象,團隊還想知道,AI為什麽會修煉出這許多技能。
於是,研究了AI的行為模式,觀察它們是如何理解比賽:
各種顏色的點點,分別代表:旗在陣地,隊友扛走了敵方大旗,自己處在敵方陣地等等。
不同戰況之下,AI的反應明顯不同。安全和危險,分得清清楚楚。
調至同一起跑線
雖然,AI在初次混戰中碾壓人類,但DeepMind團隊十分理智地以為:
AI之所以超過人類,主要優勢一是反應速度快,二是射得準 (感覺哪裡不對) 。
所以,團隊手動把反應速度調慢到人類水準267毫秒左右,把80%的射擊準確度降低到和人類相當的48%左右
然後重啟比賽,這次是真正的人機對戰。
人類戰隊分為普通人類 (Average Human) 和強大人類(Strong Human) 。
結果,強大人類組成的戰隊,對戰AI的勝率也僅有21%。
對人類來說,唯一值得慶幸的是:
當有AI加入人類戰隊,與純AI戰隊互打的時候,人類戰隊的勝率終於超過了AI戰隊。
臆測一下,這個大概是說:人類是豬隊友,吧?
Science論文傳送門:
https://science.sciencemag.org/content/364/6443/859
Science報導傳送門:
https://www.sciencemag.org/news/2019/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag
OpenAI部落格傳送門,內容剛剛更新:
https://deepmind.com/blog/capture-the-flag-science/
—完—
小程序|全類別AI學習教程
AI社群|與優秀的人交流
喜歡就點「在看」吧 !