每日最新頭條.有趣資訊

AI Dota2雖完虐人類卻弱點頻現

在 4 月 14 日,OpenAI Five 代表人工智能拿下了與人類的競爭史上又一個里程碑:以 2 比 0 的絕對優勢擊敗了 Dota 2 TI8 冠軍 OG 戰隊。其中甚至以碾壓之勢拿下第二盤,僅用 22 分鐘就“打卡下班”。比賽 4 天后,OpenAI 宣布將開放為期 3 天的 Arena 競技場模式,邀請所有 Dota 2 玩家挑戰OpenAI Five。

這場“人機大戰”的競技場於台灣時間 4 月 22 日正式落幕。AI 在 Dota 2 競技場上獲得的最終成績為 7215 : 42,勝率高達 99.4%,足以看出 OG 的敗北並不是偶然事件。

圖 | OpenAI Five 的戰績(來源:OpenAI Arena)

相比較 8 個多月前 TI8 上的表現,我們能明顯看到 AI 的進步。比賽中有很多亮眼和極限操作,比如死血冰女果斷開大反殺兩人,家常便飯一樣的吹風/BKB 躲先手,走走停停的暗影護符卡視野等等,頂級人類玩家都未必能保證 100% 做到。

除了驚訝於 AI 的進步速度,Dota 社區有很多聲音認為 OG 只是“隨便玩玩,沒認真打”,而 OpenAI 隨後推出的競技場模式,就像是一封 AI 遞給人類的戰書,上書四個大字:You Can You Up。

筆者作為 Dota 老玩家,必然不能錯過這千載難逢的機會,但由於找不到足夠的人手對抗 AI,只能自己帶 4 個 AI 娛樂一下。在連輸兩局之後基本摸清了 AI 隊友的脾氣(從不聽話)和製裁 AI 的套路(隱身等於無敵),通過瘋狂帶線和毒瘤發育連贏三場“膀胱局”(指遊戲時間特別長的對局),總算是勉強保住了 5000 分的尊嚴。

(來源:OpenAI)

AI 稱霸,但人類大神達成十連勝

競技場有兩種模式,一種是五名人類玩家組隊對抗 AI,另一種是人類 + AI 的合作模式。

目前競技場已經關閉,OpenAI 還未放出詳細的比賽錄像和結果解析,不過根據排行榜數據和社區反饋,我們可以挖掘出很多關於 OpenAI Five 的特徵。

值得注意的是,AI 的 99% 勝率看似恐怖,其實裡面有很多“水分”,比如組隊娛樂的玩家。最有分析價值的還是人類獲勝的比賽。

圖 | 競技場排行榜前十(來源:OpenAI Arena)

排行榜顯示,在人類獲勝的 42 場比賽中,有一些來自於天梯大神隊伍,還有一些知名 Dota 2 主播的隊伍,比如 Twitch 平台的 Waga,也有中國玩家熟悉的 OB 五人組和 Zard/天使焦/Fade/戰術大師 Rubick 等人。

在這些隊伍中,有一支隊長是“ainodehna”的隊伍一枝獨秀,取得了對抗 AI 的十連勝。相比之下,排名第二的隊伍僅有三連勝。

Steam 和 DotaBuff 的資料顯示,隊伍成員應該來自於俄羅斯或獨聯體地區,其中的 ainodehna 和 junior 單排天梯分都在 7000 以上,獲得了冠絕一世獎章,歐服排名分別是 294 和 227。而且他們還有電競選手資料,很可能曾經加入過職業或準職業隊伍。

圖 | 隊伍中單 junior 的 DotaBuff 資料(來源:DotaBuff)

熱心網友教你識破 AI 套路

即便如此,想要獲得十連勝也絕對不是一件容易的事。哪怕是兩支水準相近的人類隊伍對戰,也很少有這樣的連勝,他們所用的技巧因此引發了熱議。

由於這些比賽會在 Twitch 上直播,也會有人將人類勝利的視頻放到 YouTube 上,所以很快就有熱心網友在 Reddit 論壇上整理出了“如何打敗 AI”的帖子。

圖 | 網友總結如何打敗 AI 的帖子(來源:Reddit)

最開始的 1000 局比賽裡,人類隊伍隻贏了 3 局。但隨著時間的推移,OpenAI 的弱點逐漸暴露。就像所有遊戲的 AI 一樣,如果你足夠強,擊敗 AI 總有套路可尋。

AI 的 5V5 團戰和遭遇戰都很強,但卻不擅長應對帶線和分推戰術,不擅長插眼和反眼,對信使的保護也很糟糕。它們在逆風局的時候大多窩在家裡「打麻將」,不愛主動出擊,甚至還會頂著偷塔保護強拆兵營和基地,直到自己的高地建築幾乎被拆光了才回家。

最致命的是,AI 非常不擅長應對隱身部門,隱身等於無敵。

圖 | 面對 AI,隱身等於無敵

於是就有了三輔助牽扯 AI 五人,兩大哥隱刀 BKB 拆家這樣的騷套路。還有網友表示,隱刺出了輝耀之後可以一直灼燒 AI 英雄,可是 AI 看不見隱刺,也不知道自己掉血的原因是輝耀隱刺在附近——人類玩家可以瞬間理解這種情況。

由此我們能夠看出,獲得了上千場勝利的 AI 似乎並未“學會”如何打 Dota,很多常識人類通過十幾局遊戲就能快速掌握,但卻是AI學不明白的技巧。

AI 的強大是建立在靈活走位、反應迅速、無縫銜接技能和精準控制血量之上的“變態”微操作,它能夠依靠這些打贏遭遇戰和團戰,但是面對人類故意設下的圈套或者隱身部門,它仍然缺乏合理的推理能力。

圖 | 人類強拆兵營,AI 卻只顧中路打架

換言之,在已經大規模減少複雜度的遊戲中,AI 仍然難以透過複雜的表面看到本質,比如 AI 自己控制的英雄在不斷掉血,周圍卻沒有看到敵方英雄(表面),為什麽會這樣(本質)?下一步該怎麽辦?

打個比方,OpenAI Five 就像一個嚴重偏科的學生,有的科目能得 120 分,有的卻只能得 20 分。獲得連勝的隊伍正是揚長避短,利用明顯的“木桶效應”不斷製裁 AI,頗有幾分田忌賽馬的感覺。

OpenAI 自己也認為,大規模的競技場測試會回答一個重要的研究問題:OpenAI Five 在多大程度上可以被人類找到漏洞,進而被反覆擊敗。

向“通用人工智能技術”進軍

我們可以將這一問題擴大到整個深度學習領域,甚至是通用人工智能技術(AGI)。

簡單來說,AGI 就是和人類智能水準相似的 AI 系統,能夠進行感知、推理、學習、決策、行動和交流等任務,不必局限於某個應用領域,可以創造靈活的通用解決方案,能在很多領域替代人類。

按照 OpenAI 的願景,今天陪人類玩遊戲的 AI 系統,明天很可能拓展到自動化和機器人領域,有望成為AGI 的雛形。

OpenAI 本指望通過競技場為 AI 積累通用經驗,但如今可能會面臨一個數據較少的嚴峻考驗:人類隻贏了 42 場,這對於動輒分析數萬場訓練數據的 AI 來說,實在是九牛一毛,它真的可以從中學到什麽嗎?

圖 | OpenAI 每天的訓練量相當於玩 180 年 Dota 遊戲

假設 OpenAI Five 想要變成 AGI 的雛形,那麽它的學習能力就應該媲美人類。

人類有什麽樣的學習能力呢?從競技場的例子可以看出,AI 一開始連贏了 500 場,但一支人類頂尖隊伍在嘗試 2 次之後就獲得了勝利,之後還獲得了連勝。

隨著人類不斷挖掘 AI 的弱點,隻用了 1 天就摸清了 AI 的套路,做到了可以穩定擊敗 AI,最後取得十連勝(這支隊伍在競技場結束之後還在直播打 OpenAI,繼續保持了連勝記錄)。

也就是說,人類整體隻用了幾百場遊戲、頂尖個體甚至隻用了 2 場遊戲,就“學會了”如何反覆擊敗訓練了 4.5 萬年的 AI,兩者的學習效率差距顯而易見。

當然,在比賽的過程中,OpenAI 自身是鎖定的,不會學習,也不會改變,給了人類找到套路的機會。但這並不能改變它需要的訓練數據遠超人類的事實。

圖 | 雙大哥隱刀 BKB 拆家

從大數據到小數據

現代機器學習領域最熱門的莫過於深度學習(AlphaGo)和強化學習(OpenAI Five)等人工神經網絡。當 AI 系統一次次在圍棋、電子遊戲、圖像識別、自然語言處理等多個應用領域追上、甚至超越人類後,很多人都在使用這些技術探索可以應用於多個領域的 AGI 的可能性。

但是,這些技術都依賴於海量數據和計算資源,比如訓練 AI 識別醫療影像,進行中英翻譯或聽懂你說的話,均需要數十萬份訓練數據才能訓練出表現出色的模型。但它們也只能在特定場景下才能使用。因此,相對於被稱之為“強人工智能”的 AGI,這類 AI 系統普遍被稱為“弱”或“窄人工智能”(Narrow AI)。

如果想再更進一步,進軍 AGI,首先要攻克的就是在冷門應用場景下,訓練數據稀少的問題。

(來源:Pixabay)

目前已有類似的努力,比如“僅需”數千個數據就能生效的生成模型(Generative Models)、數據需求進一步降低至數百的遷移學習(Transfer Learning),可以從零開始的單樣本學習(one-shot learning)和自我對戰 (Self-Play),這都是近幾年的新興概念。

生成模型的基礎思想為“訓練算法來生成自己的訓練數據”,通過生成一個能夠抽取出基類數據的模型,根據少量的訓練數據,憑空“想”出大量的訓練數據。對於圖像來說,迄今最成功的生成模型是生成對抗網絡(GAN)。正如生成對抗網絡的發明人 Ian Goodfellow 所說的,生成模型給機器帶來了“想象力”。

但是,有些應用場景連訓練生成模型的數據都湊不夠。因此,由人類兒童學習方式啟發的遷移學習誕生了。

遷移學習是深度學習領域為了解決其海量數據需求而開發的一種手段。其基礎在於先用一個有著大量訓練數據的場景訓練模型。完成訓練後,該模型的特徵將適用於所有跟這個應用場景相關或類似的具體場景。

換句話說,這個模型“學會”的特徵可以被“遷移”到另外一個應用場景。比如用具有 1400 萬張照片的 ImageNet 去訓練一個圖像識別模型(通用特徵),然後再訓練這個模型去具體地識別醫療成像中的腫瘤(具體應用)。

但遷移學習的基礎也限制了它的應用場景:如果一個任務的所有相關任務都缺少數據(比如打 Dota 2),就無法訓練遷移學習所需的“通用模型”(生成模型因此也不適用)。這也是將深度學習擴散到新的(少數據)應用領域時所面臨的最大挑戰。

在計算機視覺任務領域,為了減少對訓練數據的依賴,研究人員正在努力研發單樣本學習。單樣本,指的是借助元學習(Meta Learning)技術的支持,隻用展示一張圖片或者一段演示,就可以讓 AI 認識某個物品,學會某種技能,從而具備一種“觸類旁通”的能力。

而在其他從零開始的應用場景中,AI 可以根據規則在自我對戰中進行學習,這也正是 OpenAI Five 和 DeepMind 的 AlphaGo Zero 所使用的技術。自我對戰最大的優勢在於可以“從零開始”,在大量的對戰中進行優化,用大量的計算力和訓練時間來掌握一個技能。

無論哪種方法,我們都能看出類似的趨勢:減少數據需求。但是,從 OpenAI Five 競技場的表現來看,雖然現有的技術手段能夠有效地減少對數據的依賴,卻依然無法有效地提高模型訓練的速度。

所幸,提升學習速度也是當下機器學習領域的一個大熱門。可以預見的是,從 AI 到 AGI,將是一個漫長的發展歷程,而隻借助少量數據就能迅速學習新技能的能力,將是發展過程中的最大難題之一。

參考:

https://openai.com/blog/how-to-train-your-openai-five/

https://www.reddit.com/r/DotA2/comments/beyilz/openai_live_updates_thread_lessons_on_how_to_beat/

https://arena.openai.com/#/results

https://openai.com/blog/competitive-self-play/

https://deepmind.com/blog/alphago-zero-learning-scratch/

https://medium.com/datadriveninvestor/small-data-deep-learning-ai-a-data-reduction-framework-9772c7273992

-End-

發現改變世界的新興科技

(微信號:deeptechchina)

獲得更多的PTT最新消息
按讚加入粉絲團