每日最新頭條.有趣資訊

DeepMind登上科學雜誌:“和AI相比,人類都是豬隊友”

栗子 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

AI組隊,比人類戰隊的成績好。

AI與人類組隊,還是遠超人類。

DeepMind為了訓練強化學習AI的團隊協作能力,選擇了雷神之錘3競技場的奪旗遊戲。

從去年到今年,AI不斷進化:

如今,把反應速度降到和人類水準把標記準確率也降下來,勝率依然超過人類。

而AI學習的資源,也只有第一視角看到的遊戲場景,以及比分,沒有比人類獲得更多信息。

當AI贏了柯潔,我們說AI不會合作;當AI贏了刀塔2世界冠軍,我們說是冠軍太魚反應速度不公平。

但現在,我們只能看著DeepMind登上最新一期的Science

然後,觀察一下這些既懂得相互協作、又懂得和人類協作的AI,是怎樣修煉出來的:

嚴酷的訓練場

奪旗遊戲(Capture the Flag) 是這樣的:

兩隊各有自己的大本營,目標是把己方的旗守在大本營,並拔掉對方的旗。

如果我是藍方,看見敵人扛著藍旗跑,就要用雷射標記它

這樣,藍旗會失而復得,敵人也會被送回它的老家。

五分鐘內,哪一隊拔掉對方更多的旗,這一隊就贏了。

原本,雷神之錘3競技場裡只有5張地圖;團隊競技場,也只有幾十張地圖。

為了讓AI受到更加嚴格的訓練,DeepMind隨機生成了許多遊戲裡原本沒有的地圖

就在這樣的競技場裡,DeepMind同時訓練了30隻智能體,主要原理是LSTM。

這30隻AI選手,一共打完了45萬場遊戲

在這個過程中,還要不時淘汰掉表現不佳的AI,用頂尖AI選手的變異版本 (Mutations) 代替。這是進化算法的思路。

最終,選出最優秀的一隻AI,取名For the Win (FTW) 。

除了碾壓人類,還會利用遊戲bug

然後,就該測試FTW的實力了。

首先,是人機混戰:DeepMind找來40個人類,與AI隨機組隊。

結果,AI選手的個人勝率遠超人類:

研究人員發現,AI不但能同人類/AI協作,還形成了經典的團戰策略

比如,跟在隊友身後,這樣一旦與敵人交火,便能在人數上超過對手。

還有,在敵人大本營附近遊蕩,當隊友拿到旗子的時候可以迅速接手往回跑。

除了這些人類常用套路之外,AI還發明了全新策略:

利用遊戲裡的一個bug,從背後向隊友射擊,能加快隊友的速度。

除了看到現象,團隊還想知道,AI為什麽會修煉出這許多技能。

於是,研究了AI的行為模式,觀察它們是如何理解比賽:

各種顏色的點點,分別代表:旗在陣地,隊友扛走了敵方大旗,自己處在敵方陣地等等。

不同戰況之下,AI的反應明顯不同。安全和危險,分得清清楚楚。

調至同一起跑線

雖然,AI在初次混戰中碾壓人類,但DeepMind團隊十分理智地以為

AI之所以超過人類,主要優勢一是反應速度快,二是射得準 (感覺哪裡不對) 。

所以,團隊手動把反應速度調慢到人類水準267毫秒左右,把80%的射擊準確度降低到和人類相當的48%左右

然後重啟比賽,這次是真正的人機對戰

人類戰隊分為普通人類 (Average Human) 和強大人類(Strong Human) 。

結果,強大人類組成的戰隊,對戰AI的勝率也僅有21%。

對人類來說,唯一值得慶幸的是:

當有AI加入人類戰隊,與純AI戰隊互打的時候,人類戰隊的勝率終於超過了AI戰隊。

臆測一下,這個大概是說:人類是豬隊友,吧?

Science論文傳送門:

https://science.sciencemag.org/content/364/6443/859

Science報導傳送門:

https://www.sciencemag.org/news/2019/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag

OpenAI部落格傳送門,內容剛剛更新:

https://deepmind.com/blog/capture-the-flag-science/

小程序|全類別AI學習教程

AI社群|與優秀的人交流

喜歡就點「在看」吧 !

獲得更多的PTT最新消息
按讚加入粉絲團