起底讓人類汗顏的DeepMind：竟是個谷歌大包袱

智東西（公眾號：zhidxcom）

文 | 心緣

智東西7月11日報導，自在國際圍棋、國際象棋戰勝頂尖棋手後，上周DeepMind又在《雷神之錘III競技場》發威，雙人組隊擊敗頂級人類玩家，小組勝率高達到74%。

對於關注人工智能（AI）領域的人而言，DeepMind絕不是個陌生的名字。自2016年AlphaGo首次擊敗韓國圍棋冠軍李世石，DeepMind AI展開了在遊戲領域對頂尖玩家的長期挑戰。

然而，在一次次刷新人類紀錄的表面風光之後，DeepMind面臨的是虧損嚴重、人員流失和可能被谷歌拋棄的生存危機。換句話講，DeepMind每一次刷的存在感，背後都是淚。

一、又打敗人類，對遊戲上癮的AI公司

自2016年AlphaGo以4:1打敗韓國圍棋冠軍李世石以來，DeepMind在遊戲領域越戰越勇，不斷研發出新的AI系統，挑戰人類的極限。2016年6月，DeepMind訓練的AI系統在雅達利遊戲《 Montezuma’s revenge》達到了大師技巧。半年後，在中國奕城圍棋網和野狐圍棋網快棋對決數十位中日韓圍棋高手、連續60局無一敗績的Master被曝出是DeepMind的作品，這個新AlphaGo系統在2017年以3:0戰勝排名世界第一的職業圍棋選手柯潔。

▲AlphaGo和李世石對戰

如果你在去年12月之前問任何一個專業國際象棋選手，市場上最強大的商用國際象棋軟體是什麽？你可能聽到最多的答案就是Stockfish、Houdini和Komodo，這三個軟體可以比任何專業棋手都有更出色的下棋表現。

不過到了12月6日，一切都改變了。在AlphaGo退役5個月後，DeepMind推出AlphaGo系列的新版本——AlphaGo Zero，隻用4個小時的訓練時間就從零開始學會了國際象棋的規則，並在100場比賽中取得28勝72平的極佳戰績，其突出表現已然超過Stockfish。國際象棋遊戲使用Elo進行評級，專業玩家評分在1800到2000之間，大師級別玩家的評分在2500以上，Stockfish的評分在3300左右，而AlphaGo Zero經評估後可能在4000左右。此外，AlphaGo Zero還有訓練3天打敗舊版AlphaGo、訓練40天打敗Master、訓練2小時打敗最強日本將棋程式Elmo的戰績。

▲AlphaGo和Stockfish國際象棋大戰複盤

除了名滿天下的AlphaGo系列，DeepMind訓練智能體通過觀看Youtube等影片自主學習超級瑪麗等遊戲。

上周，DeepMind的遊戲征途有了新的裡程碑——在《雷神之錘III競技場（Quake III Arena）》奪旗遊戲中和人類隨機組隊打團戰，擊敗了人類玩家。

▲《雷神之錘》遊戲畫面

在DeepMind正在推進的研究中，關注度最大的即是《星際爭霸 Ⅱ》。2017年8月，DeepMind宣布開始訓練AI玩暴雪公司旗下的《星際爭霸 II》遊戲。當時其顧預言，計劃讓AI在五年後戰勝《星際爭霸》世界冠軍。

《星際爭霸》是一款極其複雜的戰略遊戲，需要玩家高度集中的精神力、超強的靈敏度和戰略決策智慧。這款遊戲可以充分考驗AI的即時戰略和人機對抗協作能力。它要求AI學習在資源有限的情況下平衡發展，學會如何發展高科技、出兵種對抗以及如何調兵遣將來保證利益最大化。這些涵蓋了AI亟待解決的三大問題：一是在有限視野和不完全資訊的情況下做決策，二是平衡短期、中期和長期的發展策略，三是處理多智能體間的合作和博弈。

紐芬蘭紀念大學（Memorial University）的電腦科學教授大衛?丘吉爾（David Churchill）認為，《星際爭霸》是如此複雜，能解決《星際爭霸》的AI將能解決任何其他問題。

二、為什麽研究人員愛讓AI玩遊戲遊戲？

儘管AlphaGo已經佔據國際象棋和圍棋的霸主地位，但這不意味著AI已經具備解決實際問題的能力。AI學習玩遊戲的方法其實和人類理解遊戲的方式並不相同。國際象棋和圍棋等遊戲規則具有規範性，雖然複雜但規則又很穩定，AI在這種“有限性”的前提下可以發揮它超強計算能力的專長。儘管AI研究者們試圖增強AI的通用能力、使AI向人類大腦靠攏，但這一願景目前仍然隻取得了初步進展。

遊戲本身可以模擬人類現實生活場景，通過觀察人類行為，事半功倍地實現目標任務，幫助人類在電商和廣告行業的個性化行銷、資源調度、自動駕駛車輛、無人機等領域做做智能決策。讓AI玩遊戲，可以為AI的發展帶來如下優點。

1、模擬現實＋簡化過程

AI研究員熱衷於遊戲的一個重要原因，是解決現實世界難以去直接學習和處理的難題。大多數的遊戲場景都源於現實世界，是對現實世界的虛擬簡化。用遊戲訓練AI時，研究人員無需考慮硬體的維護問題，不需要拆卸設備，還能輕易調整測試環境，這使得訓練新AI算法的難度大大降低。如果在現實生活中讓機器人去做相關任務，可能要消耗的財力和時間都是難以估量的。

遊戲有時可以代替真實世界的複雜數據源。比如在2016年，普林斯頓大學的Arthur Filippwicz想要教汽車在不需要人類協助的情況下識別交通信號，為了訓練這個算法，他需要收集全面的包含交通信號的圖片，包括新、舊、乾淨、髒亂、有遮擋、強光、雨、霧、黑暗等場景。然而，想要獲得這樣一套完整的數據集非常費時費力，因此Filippwicz選擇借助遊戲“俠盜獵車手 V（Grand Theft Auto V）”中描繪的交通信號作為訓練集來源，他從中拿到數千張交通信號的照片來讓他的AI系統進行學習和消化。

此外，很多遊戲需要不同的認知技能。通過在不同遊戲上的訓練和學習，可以幫助研究者更好的理解和建立更完善AI系統。

為數據中心降低能耗的任務與遊戲無異，谷歌已經使用DeepMind在2015年2月學習玩Atari遊戲時相同的算法來減少其大型數據中心的耗電量。根據用戶需求的不同，伺服器的能耗和散發的熱量差異很大，DeepMind的算法可以用於預測大量伺服器所需的冷氣機冷氣，幫助數據中心將製冷系統節能40%，並使整個數據中心的能耗降低15%。

2、遷移學習

對於一個人而言，學完一個任務再去學習另一個任務是一件毫不費力的事情，然而這件事情對於AI來說卻有些困難。目前大多機器學習算法都是假設訓練集和測試集的特徵分布相同，但這在現實中往往是不可行的，遷移學習的主要能力就是讓AI將從一個環境中學習到的知識經驗運用到新環境的學習任務中，解決神經網絡災難性遺忘的問題。

AI玩遊戲的過程可以為遷移學習提供幫助。DeepMind早期的神經網絡一次只能玩一個遊戲，即便它在一個遊戲中表現良好，當把它用到另一個遊戲時，它必須重塑已經搭建好的神經網絡架構，“忘掉”之前學習的記憶，重新學習新的知識。要讓AI像人類大腦一樣去完成任務，可以在訓練它玩一款遊戲時，保留對專業知識的長期記憶，並將這些知識經驗用到掌握其他遊戲的過程之中。DeepMind在去年3月發表的論文中已經克服這個問題，可以使AI像人類大腦一樣同時掌握多款遊戲的玩法。

3、永不停歇

用遊戲訓練還有一個好處是，沒有硬體設備等各種客觀條件的限制，AI可以自由地進行長期的訓練。通過遊戲，AI運算性能得以提升，產生大量數據，這方面的進展對其他針對現實問題的AI研究也很有幫助。

4、確保AI不“耍滑頭”

在研究AI技術的過程中，DeepMind等公司並沒有忽視AI的問題和警示，DeepMind和OpenAI決定合作找到方法來預防AI帶來意外的不好結果。DeepMind讓AI隻處理自己視野範圍內所“看見”的問題，不允許AI直接向運行遊戲的電腦索取坐標等資訊，就是為了避免AI走一些普通玩家在玩遊戲時不會用到的“捷徑”。再以OpenAI在競艇遊戲CoastRunners的實驗為例，AI在進行強化學習的過程中，發現自己與其快速完成任務，不如一直原地打轉獲得的分數高，這讓研究者感到擔憂。為了避免類似情況的出現，兩家公司為AI提供更多的“人類建議”來驗證AI的行為方式。不過，花時間多次驗審，總比讓AI一不小心發瘋就毀滅地球要好的多。

三、輝煌戰績背後的陰影

DeepMind在用AI戰勝人類方面已經享譽世界，它在Alphabet集團中可以說是一個比較神奇的存在，自由、品牌響亮，其背後又隱藏長期虧損、數據不公開等問題。

1、自由的獨行俠：拒絕接機器人，看不上雲服務

DeepMind是一個特立獨行的公司。它的工作仍側重於理想環境下算法的開發，側重於充滿未來主義的工作。它目前擁有700多名員工，每周都會寫出描述他們工作進展和最新成就的學術論文。

據說當年安卓之父Andy Rubin離職時，谷歌創始人之一Lawrence Edward Page曾想讓DeepMind接管Google機器人部門。不過DeepMind創始人兼首席執行官Demis Hassabis認為波士頓動力沒怎麽使用AI技術，這個業務會分散DeepMind的注意力，因此他拒絕了佩奇的提議。

▲DeepMind創始人兼首席執行官Demis Hassabis

此外，在VMware聯合創始人兼前首席執行官Diane Greene被Google請來長官雲計算業務部門時，她曾想借助DeepMind領域的超高聲譽為谷歌雲服務進行市場宣傳。然而，考慮到谷歌雲的市場目標不清晰會削弱DeepMind的品牌，DeepMind也拒絕了這個提議。

2、燒錢大佬：長期負盈利，資金流向不明

擁有研究的自由，DeepMind也不得不承擔相應的代價。

根據去年10月英國政府發布的資料，DeepMind在2016年虧損1.235億英鎊（大約1.62億美元），這與Alphabet同年總盈利190億美元相比仍然不算是小的數額。其中4020萬英鎊（大約5270萬美元）的收入全部來自為其母公司Alphabet的其他部門（而非外部客戶）所做的工作。DeepMind還有包括不動產和電腦系統運行和維護在內的4110萬英鎊“管理服務費”。而最大的資金花費則在“員工工資和其他相關成本”方面，DeepMind在工資、差旅、辦公軟硬體方面耗資達1.047億英鎊（1.37億美元），比上一年4420萬英鎊的兩倍還多。

DeepMind的法律費用也在飆升，從2015年的144881英鎊增至658144英鎊。據外媒猜測，這高幅度上升的背後，可能和DeepMind被發現非法持有英國人民醫療健康資訊有關。

3、神秘主義：和谷歌聯繫越來越弱

DeepMind和谷歌之間的關係相當有趣。

▲DeepMind創始人兼首席執行官Demis Hassabis（左）、韓國圍棋冠軍李世石（中）、Alphabet聯合創始人Sergey Brin（右）的合照

2014年1月，谷歌以4億英鎊收購了當時名不見經傳的DeepMind公司，2015年DeepMind還屬於谷歌，在官網上用大大的字體寫著“DeepMind很高興成為谷歌的一部分”，但到了2015年，這條標語就換成了“DeepMind很高興加入谷歌的隊伍”。

2016年，新版DeepMind官網上線，“谷歌”字樣已經無跡可尋，DeepMind只在“About Us”的頁面中介紹道DeepMind是谷歌母公司Alphabet集團的一部分。

DeepMind想要獲得研究自由，它需要Alphabet提供研究資金，卻不肯和Alphabet分享數據。

谷歌收購DeepMind時，同意建立一個道德安全委員會來確保其AI技術不會被濫用。但隨後，DeepMind一直沒有透露董事會成員和討論內容。

根據Financial Times在今年6月發布的消息，Alphabet對DeepMind昂貴開銷的合理性已經產生懷疑。Alphabet AI部門督促DeepMind說明其商業模式，並向董事會說明他們的資金流向。據審查小組稱，DeepMind最終必須通過分享算法和數據或通過賺錢來證明其價值，儘管暫時不擔心Alphabet會阻止他們做想做的事，但不能保證Alphabet董事會明年會不會得出不同的意見和結論。

明年是谷歌收購DeepMind五周年，隨著DeepMind來到谷歌的75名員工，包括DeepMind首席執行官Demis Hassabis自己，都可以自行決定去留。DeepMind今後是繼續依附Alphabet的預算支持，還是像其他部門一樣獨立發展，已經到了做出選擇的關鍵時期。

結語：AI投資還在虧損期，DeepMind的遊戲AI新路徑

目前，DeepMind的工作仍側重於理想環境下算法的開發，在建立AI系統、在複雜遊戲中擊敗人類、學習3D太空都處於行業領先水準。DeepMind相信AI在更複雜的問題也能起到和遊戲中相同的作用，成為科技乃至人類創造力的倍增器。

雖說AI技術在遊戲中的突破終將移植到現實世界，目前看來這一願景仍然遙遙無期，在現實世界中的數據可不像遊戲中那麽容易獲得。DeepMind AI在遊戲方面的成功更像是學術成就，短期內不會對企業產生重大影響。

儘管DeepMind在遊戲方面的研究充滿未來主義色彩，但它的一些其他研究成果已經被谷歌使用。比如，谷歌在去年10月宣布在谷歌智能助手中採用DeepMind AI模型WaveNet，使機器的發音更接近真人（不過DeepMind轉換語音服務的價格比亞馬遜同類競品高了4倍）；同年，谷歌借助DeepMind的算法大大降低數據中心的能耗；DeepMind的“You might also like”建議還將安卓設備上Google Play商店中個應用安裝率提高了20%。

谷歌首席執行官Sundar Pichai曾多次表示，谷歌未來的成功將基於AI。然而，Alphabet投注AI所花費的巨資還不知道多久才能回本。此外，它也在AI倫理、信託基金、醫療方面和AI道德實踐方面做出努力，希望探索和理解AI在現實世界的影響，使AI在現實世界中真正發揮好的作用。

▲Alphabet在包含AI的“其他領域”的稅收和運營虧損

從圖中可以看出，Alphabet正因為在健康、機器人、連接和AI方面的研究而承受著巨額損失。2016年，這些虧損達37.7億美元，佔Alphabet虧損業務部門總金額的19.8%。從整體上來看，DeepMind的虧損似乎還沒有嚴重到影響Alphabet對它的規劃。

儘管DeepMind還沒有真正開始盈利，但它可能幫助谷歌未來佔據AI高地並推動其產品的進一步發展。不過DeepMind團隊在研究下一個重大挑戰的同時，AI研發之路道阻且長，商業變現和長期運營問題也不能忽視，希望DeepMind對AI以及現實世界發揮的作用才剛剛開始。