用圖像控制猴子大腦，哈佛大學是如何用算法“造夢”的？

《盜夢空間》劇照

文｜腦極體

還記得電影《盜夢空間》中的“造夢師”嗎？

他們可以製造出多層夢境，把某種意念植入人的大腦，還能從人的夢中竊取情報。

前不久，就有人發明出了一個名叫“XDREAM”的算法，可以通過圖像刺激大腦神經活動，從而控制某些特定神經元。這一次他們的對象，只是猴子。

AI造夢：還原猴子眼中的世界

5月2日，頂級學術期刊《CELL》（《細胞》）發表了一篇論文，哈佛大學的科學家把猴子的大腦與傳感器和神經網絡連接起來，向猴子播放AI系統生成的圖像，采集並分析猴子看到不同圖像時的神經元活動，並根據猴子的反應強度來實時調整和生成新的圖像。

最終的實驗成果顯示，AI系統已經能夠自動生成激活單個腦區的圖像，刺激到猴子大腦的特定神經元（實驗中是識別面部）。

這項研究的特別之處在於，算法生成的圖像，比起對照組中的自然圖像，對腦補神經元的刺激程序更好。換句話說，這些看起來像是真實世界扭曲版本的圖片，可能才是猴子最興奮的畫面。

論文的第一作者卡洛斯·龐斯，在項目中時是哈佛醫學院瑪格麗特·利文斯通實驗室的博士後研究員，現在則是聖路易斯華盛頓大學的一名教師。他表示，使用這個算法工具生成的圖片時，“（猴子大腦的）細胞活躍度提高到了我們前所未見的水準。”

這個圖顯示了自然圖像(右)和猴子神經元進化的圖像(左)

被命名為XDREAM的算法，是由威爾·肖在兒童醫院加布裡埃爾·克賴曼實驗室開發的，並得到了美國國立衛生研究院和國家科學基金會的資助，這是第一次在真實的神經元上進行測試。

它對一系列圖像進行變異與重新組合，變成了一堆奇怪的東西，比如穿著外科手術服的熟人、動物房間裡的漏鬥……和人類夢境中奇怪的事物有點異曲同工之妙。

XDREAM生成的圖片更像是神經元之間相互溝通所使用的語言，有的東西甚至根本不存在。難怪作者龐斯說，“如果細胞會做夢，那麽這些可能就是細胞夢見的景象。”

GAN再立新功，繪製夢境有何難？

系統生成的圖像比真實的事物更讓猴子感到興奮，這項發現能夠帶來哪些想象空間？

想要回答這個問題，我們可能需要再往前一步，先探尋視覺神經元的底層機理。

腦科學領域的研究者們已經通過無數神經元測試實驗證明了，大腦視覺神經元會對某些圖像反應更強烈，這種“不均衡響應”使我們能夠在茫茫人海中被某些特定形狀、顏色或輪廓所吸引，從而快速識別出那些特別的事物，比如在火車站找到熟人，高速路旁的廣告牌文字等等。

但是，視覺神經元究竟是如何對這些特定事物產生反應的，至今仍然是一個謎。

以往，在研究視覺神經元偏好的研究中，人們往往會使用真實存在的圖像。這就帶來了兩個問題：

一是只能研究那些現實世界中存在的刺激源。但實際上，人在快速眼動（REM）睡眠期間還保持著高頻的腦部活動。美國威斯康辛大學麥迪遜分校的Giulio Tononi及同事記錄了32個被試對象睡著時的腦電圖，證明參與真實感官刺激（比如面部和語言）處理的腦區的高頻活動增加了，而且只在夢境中出現這些元素時增加。

但做過夢的人都知道，夢境是很難完整回憶和複現的，也並不與現實世界完全一致。無法得知夢境的樣子，就使得腦神經研究丟失了一塊重要陣地。

二是令腦神經研究帶有上了研究人員的主觀選擇，有一定的片面性。舉個例子，大家都知道卷積神經網絡的發展從大腦神經中得到了很多啟發，也因此產生了很多模擬人類腦活動的算法，比如基於注意力的標注模型，它會關注圖片中的一些重點並對其進行文字描述，比如對下面這張圖片：

對圖案中的特徵進行有選擇的提取，於是我們得到了一個帶有“海上衝浪者”標簽的圖片。

在模型預訓練時，設計人員都會根據自己的理解和大多數人類的偏好，對圖片特徵賦予一定的權重進行預訓練，讓系統優先注意到那些希望它注意到的地方。但這種選擇真的萬無一失嗎？從科學的角度講，我們無法肯定地回答這個問題，但以前我們也沒有證據能夠證明，有的大腦可能不是這麽想的，有的大腦比起面孔就是更容易對文字產生興奮。

現在有了。

深度生成對抗網絡（GAN）與遺傳算法的結合，開始讓我們得以看到視覺神經元的真實“想法”。

研究團隊將微電極陣列植入六隻猴子的下顳葉皮質 (耳朵上方稍微靠後的區域)，向它展示圖像，並測量猴子在觀看圖像時單個視覺神經元的放電率。GAN每次隨機生成40個圖像，其中有10張是令給定神經元或神經元群中最活躍的圖像，另外30張是由遺傳算法根據神經元的不同反應，對這10張圖片中的元素進行重新排列組合生成的類似圖像。

這樣的循環測試會在1-3 小時內重複多達250代，並不斷優化“XDREAM”系統的圖像代碼。最終才讓我們看到了會對猴子大腦產生超級刺激的照片，顯然，它與現實世界和人類的理解都完全不同。

單個神經元的最大化響應所合成的圖像

有一些神經元響應符合人們的預期，比如說普遍認為視覺神經元喜歡“看臉”，對面部的反應最為敏感。結果證明果然如此，最後的偏好結果就進化了圓形的粉紅色圖像，有兩個類似眼睛的黑點，看上去像一張詭異的臉。

也有令人不解的地方，比如從真實圖像進化出了一些詭異的黑色小方塊，墨明棋妙的顏色混合體等等，這些特別的圖像到底是怎麽在神經元中作用、映射、成形的，目前還不得而知。這下科學家們又有新課題可以挑戰咯~

解碼神經元，對人和AI有何價值？

說了這麽多，可能大家還是搞不明白，研究猴子的視覺神經元偏好到底有什麽用。或者說，到底能不能創造實際價值。

為了解答這個疑惑，我們就來捋捋這個實驗成果的一些獨到之處：

首先，這項實驗的最大特點是嘗試了一種新的方式，即深度神經網絡，來進行腦科學實驗。XDREAM可以創造任何物體，包括那些不存在的東西。這使得讓神經元可以不受物理世界的限制，從頭開始構建自己喜歡的圖像。

這使得人類對視覺神經元的運動機制能夠以一種完全不帶主觀偏見的方式展開，讓神經元自己決定並告知研究人員，它想要什麽。

另外，從這項研究中，我們可以從圖像進化的過程看到大腦是如何學會抽象化真實事物的相關特徵。如第一作者龐斯說：“我們看到大腦正在分析視覺場景，並由經驗驅動，提取對個人重要的信息。”“大腦正在適應環境，以不可預測的方式編碼具有生態意義的信息。”

因此，這項技術可以應用於大腦中任何對感官信息作出反應的神經元，如聽覺神經元、海馬神經元和前額葉皮層神經元。

進一步了解大腦的工作方式，一方面可以對醫學、健康等領域提供有效的依據。比如幫助了解學習障礙、自閉症等相關疾病。

通過研究患者的視覺系統變化，了解他們眼中和腦海裡真實的世界景象，研究那些他們會做出優先反應的事物，也能夠讓醫護人員和家庭成員找到更有效的治療機制。畢竟見其所見，想其所想，是達成溝通和理解的第一步。

另外，還能促使人工智能開發出與大腦一樣有效、甚至更好的模型。

卷積神經網絡與大腦區域的關聯

2014年左右就有少數研究開始涉及神經網絡與神經元的交叉研究。比如研究人員通過從人類和獼猴身上記錄到的神經活動與神經網絡中的人工活動相比較，最終了解了不同系統看到的圖像。論文Khaligh-Razavi and Kriegeskorte (2014)使用了表征相似度分析，將37種不同的模型與人類和猴子IT進行了比較，發現更擅長目標識別的模型也能更好地匹配IT表征，而且，通過監督學習訓練的深度CNN（AlexNet）是表現最好的。這為深度學習的進展打下了堅實的基礎。

總體而言，機器神經網絡可以算作是對為腦神經科學家建模道路的延續。腦科學貢獻了路徑，計算機領域貢獻了算力和訓練方法，以及數據。二者的結合，才讓這些模型錘煉出了令人驚喜的能力。

不過，大腦的神經網絡要比人工的複雜N倍。直到今天，還有一些特性是今天大多數神經網絡所沒有的，比如尖峰、橫向連接、中央凹、可以跳過某些層的前饋連接等等。了解這些大腦細節會不會對人工智能帶來突破性的影響呢？

坦率地說，沒有人知道答案，因為深度神經網絡並不是（也不可能是）大腦神經系統的完整複現，但這卻是AI不得不走的路。

生物學家，同時也是哲學家的亞裡士多德曾經這樣形容圖像之於大腦的意義：我們看見某些圖像之所以感到快感，因為我們一邊在看，一邊在求知。善於摹仿，是人類的“本能”，也是AI的宿命。