每日最新頭條.有趣資訊

矽谷封面|控制AI之戰:揭秘谷歌與DeepMind的愛恨情仇

劃重點:

《經濟學人》採訪了25名消息人士,包括現任雇員、前任雇員以及投資者,揭示了這家明星AI公司及其創始人的故事,以及與谷歌之間的愛恨情仇。作為交易的一部分,DeepMind擬定了協議,防止谷歌單方面控制該公司的知識產權。在收購前一年,雙方簽署了名為“道德與安全審查協議”的合約。AlphaGo堪稱是經典的公關案例。自被谷歌收購以來,DeepMind曾多次製造奇跡,吸引了全球的關注。在谷歌收購DeepMind五年後,誰控制DeepMind的問題已經到了緊要關頭。哈薩比斯的股票可能值1億英鎊左右,Alphabet已將創始人獲得分紅的時間推遲了兩年。哈薩比斯始終把生活看作是一場遊戲。他的職業生涯中有很大一部分用來開發遊戲,他的大部分閑暇時間都花在了玩遊戲上。

【騰訊科技編者按】DeepMind是位於英國倫敦的人工智能(AI)初創企業,由AI程序師兼神經科學家德米斯·哈薩比斯(Demis Hassabis)等人聯合創立。這家公司將機器學習和系統神經科學結合起來,建立強大的通用學習算法,並將其應用於模擬、健康、遊戲開發等領域。自從被谷歌收購後,這家公司開發的程序先後在國際象棋、圍棋等棋牌遊戲中擊敗人類冠軍,進而名聲大噪。近日,經濟學人集團旗下《1843》雜誌撰文揭示了這家明星AI公司及其創始人的故事,以及與谷歌之間的愛恨情仇。

以下為騰訊科技(微信號ID:qqtech)編譯整理的文章內容:

(提醒:本文近1萬字,閱讀全文大約需要15分鐘。)

2010年8月的某個下午,在舊金山灣區邊緣的一個會議廳裡,34歲的倫敦人德米斯·哈薩比斯(Demis Hassabis)走上講台。他顯得有點兒小心翼翼,似乎在極力試圖控制自己的神經,他咧著嘴笑了笑,並開始說:“今天我要講的是以不同的方式構建……。”他突然停了下來,好像剛剛意識到他在大聲說出自己的雄心壯志,然後才接著說“AGI”。

AGI的意思是“通用人工智能”,是一種假想的計算機程序,它可以執行相當於人類甚至超越人類智力水準的任務。AGI將能夠完成獨立任務,例如識別照片或翻譯語言,這些都是我們當前手機和計算機上眾多AI專注的焦點。但AGI也會加法、減法、下棋和講法語,它還將理解物理論文、撰寫小說、設計投資策略,並與陌生人進行愉快的交談。AGI將監測核反應、管理電網和交通,並在其他方面毫不費力地取得成功。AGI將使當今最先進的AI看起來就像過時的計算機。

目前,人類是唯一能夠嘗試完成所有上述任務的智慧生物。但是人類智力受限於容納大腦的頭骨的大小,也受到身體所能提供的能量的限制。由於AGI將在計算機上運行,因此它不會受到這類限制,其智能將僅受可用處理器數量的限制。AGI可以從監測核反應開始。但很快,通過每秒消化比人類上萬年理解的更多物理論文帶來的知識,它將被用於發現新的能源。

相當於人類的智力水準,再加上計算機的速度和可擴展性,AGI將使目前似乎無法解決的問題迎刃而解。哈薩比斯表示,他預計AGI還將掌握“癌症、氣候變化、能源、基因組學、宏觀經濟以及金融系統”等學科知識。

哈薩比斯發表演講的會議被稱為奇點峰會(Singularity Summit)。根據未來學家們的說法,“奇點”指的是AGI出現引發的最可能結果。因為AGI能夠高速處理信息,所以它很快就會變得非常聰明。快速的自我改進周期將導致機器智能的爆炸性增長,使人類被“矽塵”窒息。由於這樣的未來完全建立在未經檢驗的假設基礎上,人們無法確認奇點到底是烏托邦還是地獄。

從演講的題目來看,與會者傾向於“AGI可能成為救世主”的觀點。這些演講題目包括:“如何建立人造思維”、“AI防止衰老”、“替換我們的身體”以及“改變生與死之間的界限”等。相比之下,哈薩比斯的演講題目顯得平淡無奇,即“構建AGI的系統神經科學方法”(A Systems NeuroScience Approach To Building AGI)。

哈薩比斯在講台和螢幕之間踱來踱去,語速很快。他穿著栗色的套頭衫和白色的扣子襯衫,看起來就像個學生,但他瘦小的身材似乎蘊藏著無可比擬的才智。哈薩比斯解釋說,到目前為止,科學家們已經從兩個方向接近了AGI。第一被稱為象徵性AI,人類研究人員試圖描述和編程能像人類那樣思考的系統所需的所有規則。這種方法在20世紀80年代和90年代很流行,但並沒有產生預期的結果。哈薩比斯認為,大腦的結構過於微妙,不能用這種方式來描述。

第二種方法是,研究人員試圖以數字形式複製大腦的物理網絡結構,這是非常有意義的。畢竟,大腦是人類智力的發源地。但哈薩比斯說,這些研究人員也被誤導了,他們的任務實際上與繪製宇宙中的每顆恆星同樣龐大。此外,這種方法關注的是大腦功能,本身就存在根本性錯誤,這就像試圖通過拆開某台計算機並檢查晶體管之間的相互作用來理解Microsoft Excel是如何工作的。

相反,哈薩比斯提出了中間立場:AGI應該從大腦處理信息的宏觀方法中得到啟發,而不是從物理系統或它在特定情況下應用的特定規則中獲得靈感。換句話說,它應該專注於理解大腦的軟體部分,而不是硬體功能。磁共振成像(FMRI)等新技術使人們在大腦活動時能夠窺視其內部,從而開始使這種理解成為可能。他對聽眾說,最新的研究表明,大腦在睡眠時通過回放經驗來學習,以便得出通用原則。AI研究人員應該仿效這種系統。

一個標誌出現在哈薩比斯幻燈片的右下角,這是個藍色的圓形漩渦。它下面印著兩個封閉的單詞——DeepMind,這是該公司首次被公開提及。哈薩比斯花了1年的時間試圖獲得奇點峰會的邀請,但他真正需要的是和資助這次會議的矽谷億萬富翁彼得·泰爾(Peter Thiel)會面,並希望獲得後者的投資。

哈薩比斯從來沒有說過他為何特別想要得到泰爾的支持。他通過發言人多次拒絕了記者的採訪請求。最終記者採訪了25名消息人士,包括現任雇員、前任雇員以及投資者。他們中的大多數人都保持匿名,因為他們沒有被授權談論公司的發展方向。但泰爾對AGI的熱情比哈薩比斯更強烈。在2009年奇點峰會上的演講中,泰爾曾說,他對未來最大的恐懼不是“機器人起義”,而是擔心“奇點”會拖得太久才到來。世界需要新技術來抵禦經濟衰退。

DeepMind最終籌資到200萬英鎊,其中泰爾貢獻了1.4萬英鎊。2014年1月,谷歌斥資6億美元收購該公司時,泰爾和其他早期投資者的投資回報率達到5000%。

對許多創始人來說,這將是個圓滿的結局。他們可以放慢腳步,甚至退一步,花更多的時間享受生活。但對哈薩比斯來說,谷歌的收購只是他追求AGI的目標又向前邁進一步。2013年的大部分時間裡,他都在就這筆交易的條款進行談判。DeepMind將作為獨立於其新母公司的實體運營。它將獲得谷歌提供所有的好處,如獲得現金流和計算能力,但卻不會失去控制權。

哈薩比斯原來認為,DeepMind將成為混合體:它將擁有創業公司的動力、最偉大大學的智慧,以及世界上最有價值公司之一提供的雄厚財力。每個要素都已到位,可以加速推動AGI的到來,並解決引發人類苦難的根源。

華裔血統,棋盤遊戲樣樣精

哈薩比斯1976年出生於倫敦北部,父親是希臘裔塞浦路斯人,母親則是新加坡華人,他是三個兄弟姐妹中的長子。母親在英國百貨公司John Lewis工作,父親經營著玩具店。四歲時看了父親和叔叔下棋後,他在開始學下象棋。不到幾個星期,他就可以與大人對陣。到13歲時,他已是世界同齡人中的第二優秀的棋手。八歲時,他在電腦上自學了編程。

哈薩比斯在1992年完成了高中課程,比普通人提前了兩年。他在Bullfrog Productions公司找到了製作電子遊戲的工作。哈薩比斯開發了《主題公園》(Theme Park),裡面的玩家需要設計並經營虛擬遊樂園。這款遊戲取得了巨大成功,銷售了1500萬份拷貝,幫助打造了一種新的模擬遊戲類型。在這種遊戲中,目標不是擊敗對手,而是優化某個複雜系統(如企業或城市)的功能。

除了開發遊戲外,哈薩比斯還擅長玩遊戲。十幾歲的時候,他經常參加棋類比賽,同時參加國際象棋、拚字遊戲、撲克和雙陸棋的比賽。1995年,哈薩比斯在劍橋大學學習計算機科學時,迷上了學生圍棋錦標賽。圍棋是一種古老的棋盤遊戲,它比國際象棋複雜得多。要想成為大師,需要通過長期經驗獲得的直覺。沒人知道哈薩比斯以前有沒有玩過這種遊戲。

首先,哈薩比斯贏得了初學者級別比賽冠軍。然後,他擊敗了許多經驗豐富的棋手。劍橋圍棋大師查爾斯·馬修斯(CharlesMatthews)是這項賽事的負責人,他回憶起專家級棋手被這名19歲新手狂毆時的震驚。馬修斯隨後將哈薩比斯收為弟子。

哈薩比斯的智慧和野心總是通過遊戲表達出來。反過來,遊戲又激發了他對智力的迷戀。當他反思自己在國際象棋上的表現時,他想知道計算機是否可以像他那樣通過積累的經驗來學習。遊戲提供了現實世界無法比擬的學習環境:因為遊戲是從現實世界中分離出來的,所以可以在不受干擾的情況下練習和有效地掌握它們。遊戲速度加快:玩家在幾天內建立起團體,並在幾分鐘內完成索姆河戰役。

1997年夏天,哈薩比斯前往日本。那年五月,IBM的“深藍”(Deep Blue)計算機擊敗了國際象棋世界冠軍加裡·卡斯帕羅夫(Garry Kasparov)。這是計算機首次在國際象棋比賽中擊敗特級大師。這場比賽吸引了全世界的關注,並引發了人們對計算機日益強大和潛在威脅的擔憂。

當哈薩比斯遇到日本棋盤遊戲大師Masahiko Fujuwarea時,他談到了將他在戰略遊戲和AI領域的興趣結合起來的計劃:將來,他將開發出能擊敗最偉大人類圍棋玩家的計算機程序。哈薩比斯有條不紊地對待他的事業。馬修斯說:“在20歲的時候,哈薩比斯認為,在實現他想要的那種AI之前,某些東西必須到位,而且他有自己的計劃。”

1998年,哈薩比斯創辦了自己的遊戲工作室,名為“長生不老藥”(Elixir)。哈薩比斯專注於雄心勃勃的遊戲——《共和國:革命》(Republic: The Revolution),這個一款複雜的政治模擬遊戲。幾年前,還在上學的時候,哈薩比斯就曾告訴他的朋友穆斯塔法·蘇萊曼(Mustafa Suleyman),為了模擬複雜的動力學和解決最棘手的社會問題,世界需要大規模的模擬。現在,他試著在遊戲中實現這個目標。

事實證明,實現哈薩比斯的抱負比預期的更難。Elixir工作室最終發布了精簡版的遊戲,獲得的評論也不溫不火。其他遊戲失敗了,比如邦德-惡棍模擬器《邪惡天才》(Evil Genius)。2005年4月,哈薩比斯關閉了Elixir。馬修斯認為,哈薩比斯創立該公司只是為了獲得管理經驗。現在,哈薩比斯在開始尋找AGI之前,隻缺乏一個關鍵的知識領域,即他需要了解人類的大腦。

2005年,哈薩比斯開始在倫敦大學學院(UCL)攻讀神經科學博士學位。他發表了關於記憶和想象的著名研究。這篇被引用了1000多次的論文表明,健忘症患者很難想象新的經歷,這表明記憶和創造心理形象之間存在聯繫。哈薩比斯正在獲得開發AGI所需對大腦的理解。他的大部分工作回到了此前的問題,即人類的大腦是如何獲得和保留概念和知識的?

才華橫溢,現實中屢次碰壁

哈薩比斯於2010年11月15日正式創建了DeepMind。該公司當時的使命聲明和現在一樣,即“解決智力問題”,然後用它來解決其他所有問題。正如哈薩比斯在奇點峰會上所說的那樣,這意味著將我們對大腦如何完成任務的理解轉化為可以用同樣的方法自學的軟體。

哈薩比斯並沒有假裝科學已經完全理解了人類的思想,AGI的藍圖不能簡單地從數百項神經科學研究中得出。但他自信地認為,已經擁有足夠多知識的他應該可以開始AGI的構建工作。然而,他的信心再次受到現實的打擊。我們仍然對大腦的實際功能知之甚少。2018年,澳大利亞研究人員對哈薩比斯的研究結果提出了質疑,認為其文章的統計數據很糟糕。這表明,DeepMind還有很長的路要走。

蘇萊曼(Suleyman)和肖恩·勒格(Shane Legg)都是癡迷AGI的人,哈薩比斯在加州大學洛杉磯分校(UCL)認識了後者,他們三人是DeepMind的聯合創始人。這家公司的聲譽迅速提高,哈薩比斯才華橫溢。DeepMind的前運營經理本·福克納(Ben Faulkner)表示:“哈薩比斯有點兒像磁鐵,能將其他人才吸附在其周圍。”

許多新員工來自歐洲,這遠遠超出了谷歌和Facebook等矽谷巨頭聚焦的目光,也許DeepMind最大的成就是早早地雇傭並留住了這些最聰明、最優秀的人才。這家公司在布盧姆斯伯裡(Bloomsbury)羅素廣場(Russell Square)的露台房屋閣樓上開設了門市,與倫敦大學學院隔街相望。

DeepMind關注的一種機器學習技術源於哈薩比斯對遊戲和神經科學的雙重癡迷,即強化學習。這樣的程序可以收集有關其環境的信息,然後通過反覆重播它的經驗來從中學習,就像哈薩比斯在奇點峰會演講中對睡眠中人類大腦活動的描述一樣。

強化學習在計算機領域還處於起步階段。這種程序顯示的是虛擬環境,它只知道規則,例如模擬國際象棋或視頻遊戲。該程序包含至少一個被稱為神經網絡的組件,後者是由層層的計算結構組成的,這些結構通過篩選信息來識別特定的特徵或策略。每一層都在不同的抽象級別上檢查環境。

起初,這些網絡的成功率很低,但重要的是,它們會不斷從失敗中積累經驗。它們變得越來越老練,因為它們會嘗試不同的策略,並在成功時得到獎勵。如果程序移動了某個棋子,結果輸掉了比賽,它就不會再犯同樣的錯誤。AI的魅力很大程度上在於它執行重複任務的速度。

DeepMind的工作在2016年達到頂峰,當時這個團隊構建了一個AI程序,它能使用強化學習和其他技術來玩圍棋。2016年,名為AlphaGo的程序在首爾比賽中擊敗了世界圍棋冠軍,這個項目也引起了人們的驚訝。這台機器在2.8億人注視下取得的勝利,比專家預測的早了十年。次年,AlphaGo的改良版擊敗了中國圍棋冠軍。

就像1997年的“深藍”一樣,AlphaGo改變了人們對人類所取得成就的看法。人類冠軍是這個星球上最聰明的人,然而他們卻不再站在智慧的頂峰。在向日本棋盤遊戲大師Masahiko Fujuwarea吐露野心20年後,哈薩比斯終於實現了其願望。哈薩比斯說,這場比賽讓他幾乎喜極而泣。傳統上,圍棋學徒會通過在比賽中擊敗老師來回報他們的栽培。哈薩比斯以擊敗人類冠軍的方式,來感謝馬修斯的教導。

“深藍”通過強大的計算能力和速度贏得了勝利,但AlphaGo的風格看起來更有藝術性,幾乎與人類風格毫無差異。DeepMind的優雅和老練,以及其計算能力的超越性,似乎都在表明,DeepMind在尋找能夠在治療疾病和管理城市的程序方面比競爭對手更勝一籌。

谷歌收購,極力保持獨立性

哈薩比斯總是在說,DeepMind會把世界變得更好。但AGI有很大不確定性。如果它真的誕生了,我們卻不知道它是利他的還是邪惡的,或者它是否會屈服於人類的控制。即使它能被控制,又有誰來掌控呢?

從一開始,哈薩比斯就試圖保護DeepMind的獨立性。他始終堅持讓DeepMind留在倫敦。當谷歌在2014年收購該公司時,控制權問題變得更加緊迫。哈薩比斯不需要把DeepMind賣給谷歌,該公司手頭有充足的現金,他已經勾畫出商業模式,公司將在這種模式下設計遊戲,以便為研究提供資金。

雖然谷歌的財務實力很有吸引力,但和許多創始人一樣,哈薩比斯也不願交出自己耗費心血培育的這家公司。作為交易的一部分,DeepMind擬定了協議,防止谷歌單方面控制該公司的知識產權。據知情人士透露,在收購前一年,雙方簽署了名為“道德與安全審查協議”的合約。該協議是由倫敦的資深大律師起草的,此前未被報導過。

“審查協議”將對DeepMind的AGI核心技術(無論何時創建)的控制權交給名為道德委員會(Ethics Board)的管理小組。據消息人士稱,建立道德委員會非但不是谷歌的表面讓步,還為DeepMind提供了堅實的法律支持,以保持對其最有價值和潛在最危險技術的控制權。該小組成員的名字尚未公布,但與DeepMind和谷歌關係密切的消息人士表示,DeepMind的三名創始人都委員會成員。

哈薩比斯也可以通過其他方式決定DeepMind的命運,那便是忠誠。許多前任和現任員工表示,哈薩比斯設定的研究議程是DeepMind最大的優勢之一。他的議程吸引了數以百計世界上最有才華的專家,他們不惜放棄自己的學術研究,心甘情願地加入他的團隊工作。

DeepMind在巴黎和艾伯塔省設有分公司。許多員工更喜歡哈薩比斯及其提出的使命,而不是其母公司的抱負。只要哈薩比斯繼續擁有他們的個人忠誠,他就對DeepMind的唯一股東擁有相當大的製約力。對谷歌來說,讓DeepMind的AI人才通過代理為其工作,比讓這些人最終到Facebook或蘋果工作要好得多。

DeepMind還有其他製約力量,即公眾影響力,但這需要其不斷增加曝光率。這家公司在這方面做得很好,AlphaGo堪稱是經典的公關案例。自被谷歌收購以來,DeepMind曾多次製造奇跡,吸引了全球的關注。

比如,一款軟體可以在眼球掃描中發現黃斑變性的標誌。另一個程序使用與AlphaGo類似的體系結構從零開始學習國際象棋,在與自己對戰9個小時後成為有史以來最偉大的棋手。2018年12月,名為AlphaFold的計劃證明,在從蛋白質複合物的清單中預測蛋白質的三維結構方面,它比競爭對手更準確,這可能為治療帕金森氏症和阿爾茨海默氏症等疾病鋪平道路。

DeepMind尤其為自己開發的算法感到自豪,這些算法計算出了冷卻谷歌數據中心的最有效方法,這些數據中心估計包含250萬台計算機伺服器。DeepMind在2016年表示,他們已經將谷歌的能源支出削減了40%。但有些內部人士表示,這種吹噓言過其實。早在DeepMind出現之前,谷歌就始終在使用算法來優化其數據中心。

谷歌的一名員工表示:“他們只想擁有些公關資本,這樣他們就可以在谷歌母公司Alphabet中宣稱做出了貢獻,並以此獲得增值籌碼。”Alphabet為這類服務向DeepMind支付了大筆錢。2017年,DeepMind向Alphabet公司收取了5400萬英鎊相關費用。與DeepMind耗費的間接費用相比,這一數字簡直不值一提。該公司當年僅在員工身上就花費了2億英鎊。總體而言,DeepMind在2017年虧損了2.82億英鎊。

對於現金充裕的科技巨頭來說,這只是微不足道的損失。但其他虧損的Alphabet子公司吸引了Alphabet吝嗇的首席財務官露絲·波拉特(RuthPorat)的注意。比如建立互聯網服務提供商的努力Google Fiber,在很明顯需要幾十年才能獲得投資回報後被擱置了下來。AI研究人員私下想知道DeepMind是否能繼續保持獨立地位。

謹小慎微,與谷歌分歧加大

DeepMind在推進AI進步方面相當謹慎,這是其一貫的管理戰略,表明其獲得當前的聲譽價值實至名歸。在谷歌被指控侵犯用戶隱私和傳播虛假新聞的時候,這一點尤其重要。DeepMind還幸運地在母公司最高層有自己的同情者,谷歌聯合創始人、Alphabet首席執行官即拉裡·佩奇(LarryPage)。佩奇是哈薩比斯最接近的老闆,佩奇的父親卡爾(Carl)曾在20世紀60年代研究神經網絡。佩奇說,在他早期的職業生涯中,他創建谷歌只是為了創建一家AI公司。

DeepMind對媒體管理控制非常嚴格,並不符合公司普遍存在的學術精神。許多研究人員抱怨說,他們的研究成果很難發表:在向相關會議和期刊提交工作成果之前,必須經過多層內部批準。DeepMind認為,它需要謹慎行事,以避免使用AGI的前景嚇到公眾。但過分保密可能會開始破壞學術氛圍,削弱員工的忠誠度。

在谷歌收購DeepMind五年後,誰控制DeepMind的問題已經到了緊要關頭。該公司的創始人和早期雇員正在接近盈利,他們可以帶著從收購中獲得的經濟補償離開,哈薩比斯的股票可能值1億英鎊左右。但一位與該公司關係密切的消息人士表示,Alphabet已將創始人獲得分紅的時間推遲了兩年。鑒於哈薩比斯堅持不懈的專注,他不太可能跳槽。他之所以對錢感興趣,只是因為它能幫助他完成畢生的努力。

但有些同事已經離開。自2019年初以來,已有三名AI工程師離開DeepMind。世界上最著名的安全工程師之一本·勞裡(Ben Laurie)現在又回到了他以前的雇主谷歌那裡。不過離開的人很少,畢竟DeepMind也提供了如此令人興奮的任務和豐厚的薪酬,所以很少有人離開。到目前為止,谷歌還沒有對DeepMind進行過多的乾預。但最近發生的一起事件引發了人們的擔憂,即該公司能維持多長時間的獨立性。

DeepMind始終計劃使用AI來改善醫療保健。2016年2月,該公司成立了新的部門DeepMind Health,由該公司的聯合創始人穆斯塔法·蘇萊曼(Mustafa Suleyman)領導。蘇萊曼的母親曾是NHS護士,他希望創建名為Streams的程序,在病人健康惡化時向醫生發出警告。

DeepMind將獲得基於績效的費用。因為這項工作需要接觸到關於病人的敏感信息,蘇萊曼建立了獨立審查小組(IRP),該小組由英國優秀的醫療保健和技術人員組成。DeepMind謹慎行事是明智的。英國信息專員隨後發現,其中一家合作醫院在處理病人數據時違反了法律。然而,到2017年底,蘇萊曼已經與四家大型NHS醫院簽署了協議。

2018年11月8日,谷歌報告成立了自己的醫療保健部門Google Health。五天后,谷歌宣布DeepMind Health將被納入其母公司的工作。DeepMind似乎事先沒有收到警告。根據《自由信息法案》獲得的信息顯示,該公司隻向其夥伴醫院發出了三天的更改通知。DeepMind拒絕透露有關合並討論是什麽時候開始的,但表示通知與公開聲明之間的短時間差距符合透明規則。

蘇萊曼在2016年寫道:“在任何階段,患者數據都不會與谷歌的账戶、產品或服務鏈接關聯。”他的承諾似乎被打破了。在就此問題受到質疑時,DeepMind說:“在這一階段,我們的合約沒有轉移到谷歌。Streams成為谷歌服務並不意味著患者數據也被提供給其他谷歌產品或服務。”

谷歌的兼並激怒了DeepMind Health的員工。據熟悉該公司健康團隊的人士說,更多的員工計劃在合並完成後離開公司。獨立審查小組(IRP)成員邁克·布萊肯(Mike Bracken)已經離開。據多位知情人士透露,布萊肯於2017年12月辭職,原因是擔心審核小組更多是為了裝門面,而不是真正執行監督任務。

當布萊肯問蘇萊曼是否會賦予IRP成員非執行董事的問責和治理權力時,蘇萊曼對此嗤之以鼻。IRP主席朱利安·赫珀特(Julian Huppert)辯稱,該小組提供了比布萊肯預期的“更激進的治理權限”,成員能夠公開發言,不受保密協議的約束。

這段插曲表明,DeepMind運營的外圍部分很容易受到谷歌的影響。DeepMind在一份聲明中說:“我們都同意,在增加資源的情況下,將這些努力集中起來是有意義的。”這就引出了一個問題:谷歌是否會將同樣的邏輯應用到DeepMind的AGI工作中。

前路漫漫,現實與技術挑戰並存

從長遠來看,DeepMind看上去已經邁出了很大一步。該公司已經開發出軟體,可以學習在超人水準上執行任務。哈薩比斯經常以雅達利遊戲機上的電子遊戲《Breakout》為例,玩家控制球棒在螢幕底部水準移動,用它將球反彈到懸浮在其上方的方塊,並在撞擊時將其摧毀。

當所有的方塊都被抹去時,玩家就贏了。如果玩家用球棒打偏了球,她就輸了。在沒有人類的乾預下,DeepMind的程序不僅學會了玩遊戲,而且還研究出了如何將球轟到方塊後面的空間,以及如何利用反彈來突破更多的方。哈薩比斯說,這證明了強化學習的力量和DeepMind計算機程序的超自然能力。

這是個令人印象深刻的演示。但哈薩比斯漏掉了幾件事。第一,如果虛擬球棒被移動到更高的位置,程序就會失敗。DeepMind的程序所學到的技能是如此有限,以至於它甚至不能對環境的微小變化做出反應。至少在沒有數千輪強化學習的情況下,它無法對此做出應對。

但世界恰好處於這樣善變的模式。對於診斷智能來說,沒有兩個身體器官是完全一樣的。對於機械智能來說,沒有兩個引擎可以同樣的方式進行調諧。因此,將在虛擬空間中完善的程序發布道現實世界面臨著重重挑戰。

DeepMind很少提及的第二個警告是,虛擬環境中的成功取決於獎勵功能的存在,這是允許軟體衡量其進度的信號。該程序了解到,發射小球到方塊上方的空間使其多次反彈能夠使得分上升。DeepMind與AlphaGo合作的大部分工作是構建能與如此複雜的遊戲兼容的獎勵函數。

不幸的是,現實世界並不提供簡單的回報,進步很少用單一標準來衡量。即使在這些措施存在的地方,政治挑戰也會使問題複雜化。將氣候健康的獎勵信號(大氣中二氧化碳顆粒的數量)和石油公司的獎勵信號(股價)相協調,需要滿足許多互相矛盾的動機。獎勵信號往往很弱。人腦在完成任務的過程中,很少會收到關於任務成功的明確反饋。

DeepMind通過使用大量的計算機能力找到了解決這個問題的方法。AlphaGo需要數千年的人類遊戲時間來學習任何東西。許多AI思想家懷疑,對於報酬較低的任務,這種解決方案是不可持續的。DeepMind承認存在這樣的模棱兩可之處。該公司最近專注於戰略電腦遊戲《星海爭霸2》(StarCraft 2)。在遊戲早期做出的決定會在稍後產生影響,這更接近於許多現實世界任務所特有的那種令人費解和延遲的反饋。

今年1月,DeepMind軟體在一次演示中擊敗了世界上許多頂尖的人類遊戲玩家,雖然受到了嚴重的限制,但其表現仍然令人印象深刻。DeepMind的軟體也開始學習獎勵功能,比如遵循人類監工的反饋。但是,將人類的指令放入循環中,可能會失去純粹計算機處理所提供的規模和速度獎勵。

由於嚴格的保密協議,DeepMind和谷歌現任、前任研究人員要求保持匿名,他們也對DeepMind能否通過這些方法接觸到AGI表示懷疑。對這些人來說,專注於在模擬環境中獲得高性能使得獎勵信號問題很難解決。然而,這種方法是DeepMind的核心。它有個內部排行榜,顯示來自競爭對手團隊的程序爭奪對虛擬域的控制權。

哈薩比斯始終把生活看作是一場遊戲。他的職業生涯中有很大一部分用來開發遊戲,他的大部分閑暇時間都花在了玩遊戲上。在DeepMind,它們是哈薩比斯為開發AGI而選擇的工具。就像他的軟體一樣,哈薩比斯只能從他的經驗中學習。

人們對AGI的追求可能最終會迷失方向,因為它發明了許多有用的醫療技術,並超過了世界上最偉大的棋盤遊戲玩家。這些都堪稱是重要的成就,但不是哈薩比斯所渴望的。但他仍有可能幫助AGI誕生,就在谷歌的眼皮底下,但卻不受谷歌的控制。如果這樣做,哈薩比斯將贏得最艱難的比賽。(騰訊科技審校/金鹿)

「矽谷封面」深度好文一次看個夠

「矽谷封面」系列是為科技圈大咖訪談、重磅研究報告和大公司深度調查等匯總的欄目,旨在為科技資訊愛好者提供最有思想深度的優質好文。

獲得更多的PTT最新消息
按讚加入粉絲團