每日最新頭條.有趣資訊

起底讓人類汗顏的DeepMind:竟是個谷歌大包袱

智東西(公眾號:zhidxcom)

文 | 心緣

智東西7月11日報導,自在國際圍棋、國際象棋戰勝頂尖棋手後,上周DeepMind又在《雷神之錘III競技場》發威,雙人組隊擊敗頂級人類玩家,小組勝率高達到74%。

對於關注人工智能(AI)領域的人而言,DeepMind絕不是個陌生的名字。自2016年AlphaGo首次擊敗韓國圍棋冠軍李世石,DeepMind AI展開了在遊戲領域對頂尖玩家的長期挑戰。

然而,在一次次刷新人類紀錄的表面風光之後,DeepMind面臨的是虧損嚴重、人員流失和可能被谷歌拋棄的生存危機。換句話講,DeepMind每一次刷的存在感,背後都是淚。

一、又打敗人類,對遊戲上癮的AI公司

自2016年AlphaGo以4:1打敗韓國圍棋冠軍李世石以來,DeepMind在遊戲領域越戰越勇,不斷研發出新的AI系統,挑戰人類的極限。2016年6月,DeepMind訓練的AI系統在雅達利遊戲《 Montezuma’s revenge》達到了大師技巧。半年後, 在中國奕城圍棋網和野狐圍棋網快棋對決數十位中日韓圍棋高手、連續60局無一敗績的Master被曝出是DeepMind的作品,這個新AlphaGo系統在2017年以3:0戰勝排名世界第一的職業圍棋選手柯潔。

▲AlphaGo和李世石對戰

如果你在去年12月之前問任何一個專業國際象棋選手,市場上最強大的商用國際象棋軟體是什麽?你可能聽到最多的答案就是Stockfish、Houdini和Komodo,這三個軟體可以比任何專業棋手都有更出色的下棋表現。

不過到了12月6日,一切都改變了。在AlphaGo退役5個月後,DeepMind推出AlphaGo系列的新版本——AlphaGo Zero,隻用4個小時的訓練時間就從零開始學會了國際象棋的規則,並在100場比賽中取得28勝72平的極佳戰績,其突出表現已然超過Stockfish。國際象棋遊戲使用Elo進行評級,專業玩家評分在1800到2000之間,大師級別玩家的評分在2500以上,Stockfish的評分在3300左右,而AlphaGo Zero經評估後可能在4000左右。此外,AlphaGo Zero還有訓練3天打敗舊版AlphaGo、訓練40天打敗Master、訓練2小時打敗最強日本將棋程式Elmo的戰績。

▲AlphaGo和Stockfish國際象棋大戰複盤

除了名滿天下的AlphaGo系列,DeepMind訓練智能體通過觀看Youtube等影片自主學習超級瑪麗等遊戲。

上周,DeepMind的遊戲征途有了新的裡程碑——在《雷神之錘III競技場(Quake III Arena)》奪旗遊戲中和人類隨機組隊打團戰,擊敗了人類玩家。

▲《雷神之錘》遊戲畫面

在DeepMind正在推進的研究中,關注度最大的即是《星際爭霸 Ⅱ》。2017年8月,DeepMind宣布開始訓練AI玩暴雪公司旗下的《星際爭霸 II》遊戲。當時其顧預言,計劃讓AI在五年後戰勝《星際爭霸》世界冠軍。

《星際爭霸》是一款極其複雜的戰略遊戲,需要玩家高度集中的精神力、超強的靈敏度和戰略決策智慧。這款遊戲可以充分考驗AI的即時戰略和人機對抗協作能力。它要求AI學習在資源有限的情況下平衡發展,學會如何發展高科技、出兵種對抗以及如何調兵遣將來保證利益最大化。這些涵蓋了AI亟待解決的三大問題:一是在有限視野和不完全資訊的情況下做決策,二是平衡短期、中期和長期的發展策略,三是處理多智能體間的合作和博弈。

紐芬蘭紀念大學(Memorial University)的電腦科學教授大衛?丘吉爾(David Churchill)認為,《星際爭霸》是如此複雜,能解決《星際爭霸》的AI將能解決任何其他問題。

二、為什麽研究人員愛讓AI玩遊戲遊戲?

儘管AlphaGo已經佔據國際象棋和圍棋的霸主地位,但這不意味著AI已經具備解決實際問題的能力。AI學習玩遊戲的方法其實和人類理解遊戲的方式並不相同。國際象棋和圍棋等遊戲規則具有規範性,雖然複雜但規則又很穩定,AI在這種“有限性”的前提下可以發揮它超強計算能力的專長。儘管AI研究者們試圖增強AI的通用能力、使AI向人類大腦靠攏,但這一願景目前仍然隻取得了初步進展。

遊戲本身可以模擬人類現實生活場景,通過觀察人類行為,事半功倍地實現目標任務,幫助人類在電商和廣告行業的個性化行銷、資源調度、自動駕駛車輛、無人機等領域做做智能決策。讓AI玩遊戲,可以為AI的發展帶來如下優點。

1、模擬現實+簡化過程

AI研究員熱衷於遊戲的一個重要原因,是解決現實世界難以去直接學習和處理的難題。大多數的遊戲場景都源於現實世界,是對現實世界的虛擬簡化。用遊戲訓練AI時,研究人員無需考慮硬體的維護問題,不需要拆卸設備,還能輕易調整測試環境,這使得訓練新AI算法的難度大大降低。如果在現實生活中讓機器人去做相關任務,可能要消耗的財力和時間都是難以估量的。

遊戲有時可以代替真實世界的複雜數據源。比如在2016年,普林斯頓大學的Arthur Filippwicz想要教汽車在不需要人類協助的情況下識別交通信號,為了訓練這個算法,他需要收集全面的包含交通信號的圖片,包括新、舊、乾淨、髒亂、有遮擋、強光、雨、霧、黑暗等場景。然而,想要獲得這樣一套完整的數據集非常費時費力,因此Filippwicz選擇借助遊戲“俠盜獵車手 V(Grand Theft Auto V)”中描繪的交通信號作為訓練集來源,他從中拿到數千張交通信號的照片來讓他的AI系統進行學習和消化。

此外,很多遊戲需要不同的認知技能。通過在不同遊戲上的訓練和學習,可以幫助研究者更好的理解和建立更完善AI系統。

為數據中心降低能耗的任務與遊戲無異,谷歌已經使用DeepMind在2015年2月學習玩Atari遊戲時相同的算法來減少其大型數據中心的耗電量。根據用戶需求的不同,伺服器的能耗和散發的熱量差異很大,DeepMind的算法可以用於預測大量伺服器所需的冷氣機冷氣,幫助數據中心將製冷系統節能40%,並使整個數據中心的能耗降低15%。

2、遷移學習

對於一個人而言,學完一個任務再去學習另一個任務是一件毫不費力的事情,然而這件事情對於AI來說卻有些困難。目前大多機器學習算法都是假設訓練集和測試集的特徵分布相同,但這在現實中往往是不可行的,遷移學習的主要能力就是讓AI將從一個環境中學習到的知識經驗運用到新環境的學習任務中,解決神經網絡災難性遺忘的問題。

AI玩遊戲的過程可以為遷移學習提供幫助。DeepMind早期的神經網絡一次只能玩一個遊戲,即便它在一個遊戲中表現良好,當把它用到另一個遊戲時,它必須重塑已經搭建好的神經網絡架構,“忘掉”之前學習的記憶,重新學習新的知識。要讓AI像人類大腦一樣去完成任務,可以在訓練它玩一款遊戲時,保留對專業知識的長期記憶,並將這些知識經驗用到掌握其他遊戲的過程之中。DeepMind在去年3月發表的論文中已經克服這個問題,可以使AI像人類大腦一樣同時掌握多款遊戲的玩法。

3、永不停歇

用遊戲訓練還有一個好處是,沒有硬體設備等各種客觀條件的限制,AI可以自由地進行長期的訓練。通過遊戲,AI運算性能得以提升,產生大量數據,這方面的進展對其他針對現實問題的AI研究也很有幫助。

4、確保AI不“耍滑頭”

在研究AI技術的過程中,DeepMind等公司並沒有忽視AI的問題和警示,DeepMind和OpenAI決定合作找到方法來預防AI帶來意外的不好結果。DeepMind讓AI隻處理自己視野範圍內所“看見”的問題,不允許AI直接向運行遊戲的電腦索取坐標等資訊,就是為了避免AI走一些普通玩家在玩遊戲時不會用到的“捷徑”。再以OpenAI在競艇遊戲CoastRunners的實驗為例,AI在進行強化學習的過程中,發現自己與其快速完成任務,不如一直原地打轉獲得的分數高,這讓研究者感到擔憂。為了避免類似情況的出現,兩家公司為AI提供更多的“人類建議”來驗證AI的行為方式。不過,花時間多次驗審,總比讓AI一不小心發瘋就毀滅地球要好的多。

三、輝煌戰績背後的陰影

DeepMind在用AI戰勝人類方面已經享譽世界,它在Alphabet集團中可以說是一個比較神奇的存在,自由、品牌響亮,其背後又隱藏長期虧損、數據不公開等問題。

1、自由的獨行俠:拒絕接機器人,看不上雲服務

DeepMind是一個特立獨行的公司。它的工作仍側重於理想環境下算法的開發,側重於充滿未來主義的工作。它目前擁有700多名員工,每周都會寫出描述他們工作進展和最新成就的學術論文。

據說當年安卓之父Andy Rubin離職時,谷歌創始人之一Lawrence Edward Page曾想讓DeepMind接管Google機器人部門。不過DeepMind創始人兼首席執行官Demis Hassabis認為波士頓動力沒怎麽使用AI技術,這個業務會分散DeepMind的注意力,因此他拒絕了佩奇的提議。

▲DeepMind創始人兼首席執行官Demis Hassabis

此外,在VMware聯合創始人兼前首席執行官Diane Greene被Google請來長官雲計算業務部門時,她曾想借助DeepMind領域 的超高聲譽為谷歌雲服務進行市場宣傳。然而,考慮到谷歌雲的市場目標不清晰會削弱DeepMind的品牌,DeepMind也拒絕了這個提議。

2、燒錢大佬:長期負盈利,資金流向不明

擁有研究的自由,DeepMind也不得不承擔相應的代價。

根據去年10月英國政府發布的資料,DeepMind在2016年虧損1.235億英鎊(大約1.62億美元),這與Alphabet同年總盈利190億美元相比仍然不算是小的數額。其中4020萬英鎊(大約5270萬美元)的收入全部來自為其母公司Alphabet的其他部門(而非外部客戶)所做的工作。DeepMind還有包括不動產和電腦系統運行和維護在內的4110萬英鎊“管理服務費”。而最大的資金花費則在“員工工資和其他相關成本”方面,DeepMind在工資、差旅、辦公軟硬體方面耗資達1.047億英鎊(1.37億美元),比上一年4420萬英鎊的兩倍還多。

DeepMind的法律費用也在飆升,從2015年的144881英鎊增至658144英鎊。據外媒猜測,這高幅度上升的背後,可能和DeepMind被發現非法持有英國人民醫療健康資訊有關。

3、神秘主義:和谷歌聯繫越來越弱

DeepMind和谷歌之間的關係相當有趣。

▲DeepMind創始人兼首席執行官Demis Hassabis(左)、韓國圍棋冠軍李世石(中)、Alphabet聯合創始人Sergey Brin(右)的合照

2014年1月,谷歌以4億英鎊收購了當時名不見經傳的DeepMind公司,2015年DeepMind還屬於谷歌,在官網上用大大的字體寫著“DeepMind很高興成為谷歌的一部分”,但到了2015年,這條標語就換成了“DeepMind很高興加入谷歌的隊伍”。

2016年,新版DeepMind官網上線,“谷歌”字樣已經無跡可尋,DeepMind只在“About Us”的頁面中介紹道DeepMind是谷歌母公司Alphabet集團的一部分。

DeepMind想要獲得研究自由,它需要Alphabet提供研究資金,卻不肯和Alphabet分享數據。

谷歌收購DeepMind時,同意建立一個道德安全委員會來確保其AI技術不會被濫用。但隨後,DeepMind一直沒有透露董事會成員和討論內容。

根據Financial Times在今年6月發布的消息,Alphabet對DeepMind昂貴開銷的合理性已經產生懷疑。Alphabet AI部門督促DeepMind說明其商業模式,並向董事會說明他們的資金流向。據審查小組稱,DeepMind最終必須通過分享算法和數據或通過賺錢來證明其價值,儘管暫時不擔心Alphabet會阻止他們做想做的事,但不能保證Alphabet董事會明年會不會得出不同的意見和結論。

明年是谷歌收購DeepMind五周年,隨著DeepMind來到谷歌的75名員工,包括DeepMind首席執行官Demis Hassabis自己,都可以自行決定去留。DeepMind今後是繼續依附Alphabet的預算支持,還是像其他部門一樣獨立發展,已經到了做出選擇的關鍵時期。

結語:AI投資還在虧損期,DeepMind的遊戲AI新路徑

目前,DeepMind的工作仍側重於理想環境下算法的開發,在建立AI系統、在複雜遊戲中擊敗人類、學習3D太空都處於行業領先水準。DeepMind相信AI在更複雜的問題也能起到和遊戲中相同的作用,成為科技乃至人類創造力的倍增器。

雖說AI技術在遊戲中的突破終將移植到現實世界,目前看來這一願景仍然遙遙無期,在現實世界中的數據可不像遊戲中那麽容易獲得。DeepMind AI在遊戲方面的成功更像是學術成就,短期內不會對企業產生重大影響。

儘管DeepMind在遊戲方面的研究充滿未來主義色彩,但它的一些其他研究成果已經被谷歌使用。比如,谷歌在去年10月宣布在谷歌智能助手中採用DeepMind AI模型WaveNet,使機器的發音更接近真人(不過DeepMind轉換語音服務的價格比亞馬遜同類競品高了4倍);同年,谷歌借助DeepMind的算法大大降低數據中心的能耗;DeepMind的“You might also like”建議還將安卓設備上Google Play商店中個應用安裝率提高了20%。

谷歌首席執行官Sundar Pichai曾多次表示,谷歌未來的成功將基於AI。然而,Alphabet投注AI所花費的巨資還不知道多久才能回本。此外,它也在AI倫理、信託基金、醫療方面和AI道德實踐方面做出努力,希望探索和理解AI在現實世界的影響,使AI在現實世界中真正發揮好的作用。

▲Alphabet在包含AI的“其他領域”的稅收和運營虧損

從圖中可以看出,Alphabet正因為在健康、機器人、連接和AI方面的研究而承受著巨額損失。2016年,這些虧損達37.7億美元,佔Alphabet虧損業務部門總金額的19.8%。從整體上來看,DeepMind的虧損似乎還沒有嚴重到影響Alphabet對它的規劃。

儘管DeepMind還沒有真正開始盈利,但它可能幫助谷歌未來佔據AI高地並推動其產品的進一步發展。不過DeepMind團隊在研究下一個重大挑戰的同時,AI研發之路道阻且長,商業變現和長期運營問題也不能忽視,希望DeepMind對AI以及現實世界發揮的作用才剛剛開始。

 

獲得更多的PTT最新消息
按讚加入粉絲團