每日最新頭條.有趣資訊

人工智能領域面臨極化,巨頭實驗室或將主宰AI未來

【獵雲網(微信號:ilieyun)】6月3日報導(編譯:AlphaMk)

國際象棋和圍棋曾是孩子的遊戲。現在AI正在贏得奪旗遊戲。這些技能最終會轉化到現實世界嗎?

孩子們會在夏季營地開放空間玩奪旗這個遊戲;同時,爭奪旗子這個遊戲畫面也是Quake III和Overwatch等熱門遊戲的一部分。

無論是哪種情況,這都是一項團隊運動。每一方都守衛一面旗幟,同時還要計劃如何抓住對方的旗幟並將其帶回到自己的大本營。贏得比賽需要良好的老式團隊合作以及協調防守和攻擊之間的平衡。

換句話說,奪得旗幟需要一套看起來似乎只有人工才能操作的技能。但倫敦一家人工智能實驗室的研究人員表明,機器也可以攻克這項遊戲,至少在虛擬世界中是可以的。

在五月三十日發表在《科學》雜誌上的一篇論文中,研究人員稱他們在Quake III遊戲的奪旗環節中設計了自動“代理人”,這些“代理人”表現的就跟人類在操作一樣。這些代理人能夠自行組隊來對抗人類玩家,也可以與他們並肩作戰,根據情況相應地調整自己的行為。

隸屬於Alphabet的DeepMind實驗室的研究員Wojciech Czarnecki表示:“這些代理人可以適應具有任意技能的隊友。”

通過數千小時的遊戲,代理人學會了非常特殊的技能,比如在隊友即將獲得旗幟的情況下極速跑去攻擊對手的大本營。正如人類玩家所知,當對方旗幟被奪得並帶到自己的大本營時,對家的大本營中會出現一面可以搶奪的新旗。

DeepMind的項目是努力構建人工智能應用於複雜三維動畫遊戲的一部分,這些三維動畫遊戲包括Quake III、Dota 2和星海爭霸II。許多研究人員認為:虛擬領域的成功最終將提升現實世界中人工智能的應用能力。

例如,這些技能可以使倉庫機器人受益——當他們分組工作將貨物從一個地方移動到另一個地方時,或者幫助自動駕駛汽車在交通擁堵時集中導航。位於舊金山的OpenAI實驗室有著類似研究項目,項目負責人Greg Brockman說道:“遊戲一直是AI的基準。如果不能攻克遊戲難題,就不能指望AI解決其他問題。”

直到最近,在像Quake III這樣的遊戲中構建一個可以匹配人類玩家的系統才成為可能,以前看來似乎是不可能的。但是在過去的幾年裡,DeepMind、OpenAI以及其他實驗室取得了重大進展,這要歸功於一種稱為“強化學習”的數學技術,這種技術使得機器能通過極端的反覆試驗和試錯來學習。

通過一遍又一遍地玩遊戲,這些自動代理人可以了解哪些策略能成功,哪些策略不成功。如果代理人在隊友即將奪旗的情況下通過向對手的大本營移動而不斷贏得更多積分,則會將這種策略添加到他的遊戲策略中。

在2016年,同樣使用這項基礎技術,DeepMind研究人員構建了使得AlphaGo在東方圍棋遊戲中擊敗世界頂級玩家的系統。鑒於圍棋遊戲的巨大複雜性,許多專家曾認為這種突破不會這麽早實現,而是起碼將在未來十年內完成。

尤其是當涉及到隊友之間的協調時,第一人稱視頻遊戲的複雜程度是呈指數級的增長的。DeepMind的代理人通過大約45萬輪遊戲來學習如何奪得旗幟,在數周的訓練中便積累了需要大約4年的遊戲經驗。起初,代理人慘遭失敗。但通過學習突襲對手大本營時應該如何追隨隊友,他們逐漸了解到了這個遊戲的精髓。

在完成這個項目以後,DeepMind的研究人員還設計了一個可以擊敗星海爭霸II專業玩家的系統。在OpenAI實驗室,研究人員構建了一個掌握Dota 2的系統,Dota 2這個遊戲就像奪得旗幟的加強版本。今年四月,由五名代理人組成的團隊擊敗了由五名世界上最優秀的人類玩家組成的玩家團隊。

去年,人稱Blitz的專業Dota 2玩家兼評論員William Lee與代理人進行過一對一比賽,當時的版本不允許團隊戰;在當時,William對此表示興趣平平。但是當代理人繼續學習比賽並且參加團隊戰時,他對代理人的技巧感到震驚。

他說:“我曾經以為機器不可能打五對五的,更不用說贏了。我絕對被征服了。”

這種技術在遊戲中的應用令人印象深刻,但許多人工智能專家質疑它是否最終能轉化為解決現實問題。專注於人工智能的喬治亞理工學院計算機教授Mark Riedl質疑到:DeepMind的代理人事實上並沒有真正在合作。他們只是回應遊戲中發生的事情,而不是像人類玩家那樣互相交換信息。(甚至渺小如螞蟻也可以通過交換化學信號進行協作。)

雖然結果看起來像是協作,但這是因為代理人作為個體本身是可以完全理解遊戲中發生的事情。

負責該項目的另一位DeepMind研究員Max Jaderberg則表示:“如何定義團隊合作並不是我想要解決的問題。但是一名代理人在對手的大本營坐等旗子出現這種情況,只有在依靠隊友時才有可能出現。”

像這樣的遊戲並不像現實世界那麽複雜。Riedl博士說到:“3D環境旨在使導航變得容易。Quake的戰略與協調很簡單。”

強化學習非常適合這類遊戲。在視頻遊戲中,很容易識別成功的指標:獲得更多的得分。但在現實世界中,沒有人能保持得分。研究人員必須以其他方式定義成功。

這一點是可以實現的,至少在簡單的任務中。OpenAI的研究人員訓練了一個機器人手像孩子一樣來操縱字母塊——告訴它給你看字母A,它就會拿字母A給你看。

在谷歌機器人實驗室,研究人員已經證明機器可以學習拾取隨機物品,例如乒乓球、塑料香蕉,並將它們扔到幾英尺外的垃圾箱裡。這種技術或許在將來可以應用到亞馬遜、聯邦快遞和其他公司運營的大型倉庫和配送中心。目前,這些工作還是由人類工作者來完成的。

如DeepMind和OpenAI這樣的實驗室要想解決更大的問題,他們可能開始需要大量的計算能力。因為OpenAI的系統在幾個月內通過完成需要多年時間才能完成的45萬多輪遊戲學會了玩Dota,這依賴於成千上萬的計算機芯片。Brockman表示光買這些芯片就讓實驗室花費了數百萬美元。

卡內基梅隆大學研究員Devendra Chaplot表示,由各種矽谷大拿,其中包括Khosla Ventures和科技億萬富翁Reid Hoffman在內資助的DeepMind和OpenAI可以負擔得起這些計算能力。但是,學術實驗室和其他小型企業不能。對某些人來說,他們擔心的是那些資金充足的實驗室將主宰人工智能的未來。

但即使是大型實驗室也可能沒有將這些技術轉移到現實世界的複雜性所需的計算能力,因為這可能需要更厲害的人工智能形式——人工智能需要學得更快。雖然機器現在可以在虛擬世界中贏得奪旗遊戲,但讓他們在夏令營中開放的場地上贏得遊戲仍然無望,並且這將持續相當長一段時間。

獲得更多的PTT最新消息
按讚加入粉絲團