DeepMind登上科學雜誌：“和AI相比，人類都是豬隊友”

公開日: 2019-06-01

栗子發自凹非寺

量子位報導 | 公眾號 QbitAI

AI組隊，比人類戰隊的成績好。

AI與人類組隊，還是遠超人類。

DeepMind為了訓練強化學習AI的團隊協作能力，選擇了雷神之錘3競技場的奪旗遊戲。

從去年到今年，AI不斷進化：

如今，把反應速度降到和人類水準，把標記準確率也降下來，勝率依然超過人類。

而AI學習的資源，也只有第一視角看到的遊戲場景，以及比分，沒有比人類獲得更多信息。

當AI贏了柯潔，我們說AI不會合作；當AI贏了刀塔2世界冠軍，我們說是冠軍太魚反應速度不公平。

但現在，我們只能看著DeepMind登上最新一期的Science。

然後，觀察一下這些既懂得相互協作、又懂得和人類協作的AI，是怎樣修煉出來的：

嚴酷的訓練場

奪旗遊戲(Capture the Flag) 是這樣的：

兩隊各有自己的大本營，目標是把己方的旗守在大本營，並拔掉對方的旗。

如果我是藍方，看見敵人扛著藍旗跑，就要用雷射標記它。

這樣，藍旗會失而復得，敵人也會被送回它的老家。

五分鐘內，哪一隊拔掉對方更多的旗，這一隊就贏了。

原本，雷神之錘3競技場裡只有5張地圖；團隊競技場，也只有幾十張地圖。

為了讓AI受到更加嚴格的訓練，DeepMind隨機生成了許多遊戲裡原本沒有的地圖：

就在這樣的競技場裡，DeepMind同時訓練了30隻智能體，主要原理是LSTM。

這30隻AI選手，一共打完了45萬場遊戲。

在這個過程中，還要不時淘汰掉表現不佳的AI，用頂尖AI選手的變異版本 (Mutations) 代替。這是進化算法的思路。

最終，選出最優秀的一隻AI，取名For the Win (FTW) 。

除了碾壓人類，還會利用遊戲bug

然後，就該測試FTW的實力了。

首先，是人機混戰：DeepMind找來40個人類，與AI隨機組隊。

結果，AI選手的個人勝率遠超人類：

研究人員發現，AI不但能同人類/AI協作，還形成了經典的團戰策略：

比如，跟在隊友身後，這樣一旦與敵人交火，便能在人數上超過對手。

還有，在敵人大本營附近遊蕩，當隊友拿到旗子的時候可以迅速接手往回跑。

除了這些人類常用套路之外，AI還發明了全新策略：

利用遊戲裡的一個bug，從背後向隊友射擊，能加快隊友的速度。

除了看到現象，團隊還想知道，AI為什麽會修煉出這許多技能。

於是，研究了AI的行為模式，觀察它們是如何理解比賽：

各種顏色的點點，分別代表：旗在陣地，隊友扛走了敵方大旗，自己處在敵方陣地等等。

不同戰況之下，AI的反應明顯不同。安全和危險，分得清清楚楚。

調至同一起跑線

雖然，AI在初次混戰中碾壓人類，但DeepMind團隊十分理智地以為：

AI之所以超過人類，主要優勢一是反應速度快，二是射得準 (感覺哪裡不對) 。

所以，團隊手動把反應速度調慢到人類水準267毫秒左右，把80%的射擊準確度降低到和人類相當的48%左右

然後重啟比賽，這次是真正的人機對戰。

人類戰隊分為普通人類 (Average Human) 和強大人類(Strong Human) 。

結果，強大人類組成的戰隊，對戰AI的勝率也僅有21%。

對人類來說，唯一值得慶幸的是：

當有AI加入人類戰隊，與純AI戰隊互打的時候，人類戰隊的勝率終於超過了AI戰隊。

臆測一下，這個大概是說：人類是豬隊友，吧？

Science論文傳送門：

https://science.sciencemag.org/content/364/6443/859

Science報導傳送門：

https://www.sciencemag.org/news/2019/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag

OpenAI部落格傳送門，內容剛剛更新：

https://deepmind.com/blog/capture-the-flag-science/

—完—

小程序|全類別AI學習教程

AI社群|與優秀的人交流

喜歡就點「在看」吧 !