科研革命來了：AI在改變科學家的研究方式

新智元報導

來源：QuantaMagazine

編輯：金磊、大明

【新智元導讀】現代科學研究會產生海量數據，完全靠科學家人工處理這些數據已經不現實。很多情況下，AI工具在科學研究中已經不可或缺。這些AI工具不僅成為數據處理和計算的重要幫手，也給科學研究帶來了不少新方法和新思路。

隨著科學的發展，現在僅靠人類團隊已經不足以處理物理學和天文學實驗所產生的海量信息。這些實驗有時每天會產生多達數TB的數據，而且這個數字還在增加。 Square Kilometer Array是一組預計將在本世紀20年代中期開啟的射電望遠鏡陣列，它每年將產生的數據量相當於現在整個互聯網的總數據流量。

數據狂潮的不斷高漲，讓許多科學家向AI尋求幫助。人工神經網絡（即可以模擬大腦功能的神經元的計算機網絡）等AI系統可以通過最少的人工輸入，初步瀏覽大量數據，並從中發現人類永遠無法發現的模式。

當然，最早使用計算機來輔助科學研究的活動大約可追溯到75年前，至於對數據進行研究，從中尋找有意義的模式，則在數千年前就已經開始了。一些科學家認為，機器學習和人工智能的最新技術進展可能代表了一種全新的科學研究方法。

其中，一種名為“生成建模”的方法，有助於人們在基於數據觀察結果的不同解釋中找出最合理的理論。更重要的是，這個過程是在沒有任何預編程知識，並不知曉所研究的系統的實際流程的情況下實現的。生成模型的支持者認為，這可能是我們認識宇宙的“第三條道路”。

假設我們不具備關於天體物理學的任何知識，我們在多大程度上可以隻憑借數據本身，來重新發現這些知識？

傳統上，我們是通過觀察來了解自然的。比如Johannes Kepler在第谷布拉赫Tycho Brahe編制的行星位置表上進行了仔細研究，試圖辨別出潛在的模式，最終推斷出行星在橢圓軌道上運動的結論。科學也可以通過模擬方式向前發展。

天文學家可能會模擬銀河系及其鄰近的仙女座星系的運動，並預測它們將在數十億年內相互碰撞。觀察和模擬都有助於科學家提出假設，然後通過進一步的觀察進行測試。而生成建模與這兩種方法都不一樣。

“（生成建模）基本上是‘觀察’和‘模擬’之間的第三種方法。”天文物理學家、生成模型支持者之一Kevin Schawinski說道，他最近在瑞士蘇黎世聯邦理工學院工作。 “這種方法是解決問題的另一種途徑。”

一些科學家將生成建模等新技術視為傳統科學的動力工具。但大多數人都認為人工智能正在產生巨大影響，而且它在科學中的作用只會增長。費米國家加速器實驗室的天體物理學家Brian Nord使用人工神經網絡來研究宇宙，他們擔心，未來人類科學家所做的一切研究活動，都可以實現自動化。 “這是一個令人不寒而栗的想法。”他說。

GAN模型助天文學家攻克行星分類任務

自研究生畢業以來，Schawinski就一直從事數據驅動的科學研究。在攻讀博士學位期間，他曾面臨一個艱巨任務：根據外表面對數千個星系進行分類。因為這個任務並沒有現成的軟體可用，所以他決定利用眾包的方式——“銀河動物園全民科學項目”由此誕生。

從2007年開始，普通計算機用戶可以記錄下自己關於某個星系屬於哪個類別的最佳猜測，來幫助天文學家完成分類任務，多數人的分類結果一般都是正確的。這個項目取得了成功，但是，Schawinski也指出，與AI相比，這個項目已經過時：“今天，掌握機器學習和雲計算技術的才華橫溢的科學家，可以在一個下午完成整個項目的工作。”

Schawinski在2016年將注意力轉向生成建模的強大的新工具。從本質上講，生成建模會詢問在滿足條件X的情況下，觀察到結果Y的可能性。這種方法已被證明非常有效且用途廣泛。

例如，為生成模型提供一組人臉圖像，每張臉都標記有人的年齡。當計算機程序梳理這些“訓練數據”時，會開始在較老的面部圖像之間建立聯繫，並增加皺紋的可能性。最終，它可以對任何輸入的面部圖像進行“老化”，也就是說，它可以預測任何年齡的特定面部圖像可能經歷的真實變化。

在此類系統中，最著名的是“生成對抗網絡”（GAN）。在充分學習訓練數據之後，GAN可以修複已經損壞或丟失像素的圖像，或使模糊的照片變得清晰。GAN系統能夠學會通過競爭來推斷圖像中缺失的信息（“對抗性”由此得名）。

GAN分為兩部分，一部分名為生成器，能夠生成虛假數據，第二部分名為判別器，目標是區分虛假數據和真實數據。隨著程序的運行，兩部分的表現都會越來越好。可能你已經看過一些由GAN生成的超逼真的“面孔”，這些足以亂真人臉圖像最近已經成為熱門話題。

更廣泛地講，生成建模系統利用數據集（通常是圖像數據集），並將每個數據分解為一組基本的抽象構建模塊，科學家將其稱為數據的“潛在空間”。算法能夠利用元素潛在的空間，看看它會對原始數據造成什麽影響，這有助於發現系統運行的實際過程。

潛在空間的概念是抽象的，但可以做一個粗略的類比，想想當你試圖確定一張人臉的性別時，你的大腦在做些什麽。也許你會注意髮型、鼻子的形狀輪廓等要素，以及那些不好用語言輕易表達的特徵。

計算機程序同樣在尋找數據中的顯著特徵：雖然它不知道留著小鬍子的臉是什麽性別，但經過數據集上的訓練，其中一些圖像會被標記為“男人”或“女人”，如果其中有些圖像有“小鬍子”標簽，系統就會很快推斷出一個“小鬍子”與“性別”之間的聯繫。

在去年12月發表於《天文學和天體物理學》的論文中，Schawinski和同事Dennis Turp、Ce Zhang使用生成模型來研究星系在演化過程中所經歷的物理變化。（他們使用的軟體對待潛在空間與生成對抗網絡有所不同，因此技術上並不算是GAN，但與之類似。）他們使用的模型創建了人工數據集，作為測試物理過程假設的一種方式。

對於Schawinski來說，關鍵問題是，有多少關於恆星和星系過程的信息可以僅從數據中挑出來。 “讓我們抹去我們所知道的關於天體物理學的一切，”他說。 “我們可以在多大程度上重新發現這些知識，隻使用數據本身？”

首先，銀河系的圖像被縮小到潛伏空間中，然後，Schawinski調整該空間內的一個元素，調整方式與星系環境中的特定變化相對應。然後重新生成銀河系，看看出現了什麽差異。

“現在就好比我有一台機器，”他解釋道。“我可以拍攝一大堆最初處於低密度環境中的星系，並通過這個過程，讓他們看起來像是處在高密度環境中。”當低密度環境內的星系被放置到高密度的環境中時，它們的顏色會變得更紅，星系中的恆星會變得更加集中。 Schawinski說，這符合現有的星系觀測資料。

生成建模方法與傳統模擬方法有聯繫，但二者之間有很大不同。 Schawinski說，模擬“基本上是由假設驅動的”。 “我想我知道導致在系統中觀察到的所有現象背後的潛在物理定律是什麽。我把所有的假設擺出來，然後運行模擬系統。然後問：運行結果看起來像現實嗎？“

而在生成建模模式下，”在某種意義上，流程和思路與模擬方法是完全相反的。即：我們什麽都不知道，我們不想假設任何事情。我們希望數據本身告訴我們，接下來可能會發生什麽事情。“

不過，在這類研究中，生成建模系統的成功並不意味著天文學家和研究生的工作就是多餘的但確實代表了天體物理學對象和過程研究方式的某種轉變。“天文學並不是完全自動化的科學 - 但它表明我們能夠至少部分構建推進科學過程自動化的工具。”Schawinski說。

不過，生成模型顯然很強大，但它是否真正代表了一種新的科學方法還有待商榷。

對於紐約大學和Flatiron研究所的宇宙學家David Hogg來說，這項技術令人印象深刻，但最終只是從數據中提取模式的一種非常複雜的方法——這也是天文學家幾個世紀以來一直在做的事情。換句話說，這是一種先進的觀察和分析形式。

Hogg的工作嚴重依賴人工智能，他一直在使用神經網絡根據恆星的光譜對其進行分類，並利用數據驅動模型推斷出恆星的其他物理屬性。但是他認為他的工作是經過實踐檢驗的科學。

Hogg表示：

我不認為這是第三種方式，我只是認為，我們作為一個社區，在如何使用數據方面正變得更加成熟。特別是，我們在比較數據方面做得越來越好。但在我看來，我的工作仍完全處於觀察模式。

人工智能系統就是“勤勞的助理”

無論它們在概念上是否新穎，人工智能和神經網絡很明顯地已經在當代天文學和物理學研究中發揮了關鍵作用。

在海德堡理論研究所(Heidelberg Institute for Theoretical Studies)，物理學家Kai Polsterer領導的天體信息學小組(這是一個研究天體物理學的以數據為中心的新方法的研究小組)，最近一直在使用機器學習算法從星系數據集中提取紅移信息，這在以前是一項艱巨的任務。

Polsterer將這些基於人工智能的新系統視為“勤奮的助手”，它們可以連續數小時梳理數據，而不會對工作條件感到厭倦或抱怨。他說，這些系統可以完成所有枯燥乏味的工作，讓自己有時間去做那些酷而有趣的科學。

但這些基於AI的系統並非完美。Polsterer警告說：

尤其是這些算法只能做它們被訓練過的事情。系統對於輸入是“不可知的”。給它一個星系，這個軟體就能估計出它的紅移和年齡——但是給這個系統輸入一張自拍照，或者一張腐爛的魚的照片，它也會輸出一個(非常錯誤的)年齡。最終，人類科學家的監督仍然是至關重要的。這個問題又回到了你身上。你是負責解釋的人。

而費米實驗室(Fermilab)的Nord則警告說：

神經網絡不僅要傳遞結果，還要傳遞誤差條，這一點至關重要，就像每個大學生所接受的訓練一樣。在科學領域，如果你做了測量，卻不報告相關誤差的估計，沒有人會認真對待這樣的結果。

與許多人工智能研究人員一樣，Nord也擔心神經網絡產生的結果的不可穿透性(impenetrability)；通常，一個系統會給出一個答案，但不提供該結果的過程。

然而，並非所有人都認為缺乏透明度(transparency)必然是個問題。

法國CEA Saclay理論物理研究所的研究員Lenka Zdeborova指出，人類的直覺往往同樣是不可理解的。你看了一張照片，立刻認出了一隻貓——“但你不知道你是怎麽知道的，”她說。“從某種意義上說，你自己的大腦就是一個黑匣子。”

不僅天體物理學家和宇宙學家正在向人工智能推動的數據驅動科學遷移。像Perimeter理論物理研究所和安大略滑鐵盧大學的Roger Melko這樣的量子物理學家已經使用神經網絡來解決該領域中一些最棘手和最重要的問題，比如如何表示描述多粒子系統的數學“波函數”。

AI是必不可少的，因為Melko稱之為“維數的指數性詛咒。”也就是說，波函數形式的可能性隨著它描述的系統中的粒子數量呈指數增長。難度類似於在國際象棋或圍棋這樣的遊戲中找出最好的走法：你試著往前看下一個走法，想象你的對手會玩什麽，然後選擇最好的對策，但每走一步，可能性就會激增。

當然，人工智能系統已經掌握了這兩種遊戲——幾十年前的國際象棋，以及2016年的圍棋，當時一個名為AlphaGo的人工智能系統擊敗了一名頂級人類棋手。它們同樣適用於量子物理中的問題，Melko說。

機器的思維

無論Schawinski是否正確地宣稱自己已經找到了做科學的“第三條道路”，或者像Hogg所說的那樣，它只是傳統的觀察和數據分析“類固醇”，很明顯AI正在改變科學發現的味道，而且肯定在加速它的發展。

人工智能革命將在科學上走多遠?

當然，偶爾也會有人對“機器人科學家”的成就誇誇其談。十年前，一位名叫亞當(Adam)的人工智能機器人化學家研究了麵包酵母的基因組，並找出了製造特定氨基酸的基因。

最近，格拉斯哥大學(University of Glasgow)的化學家Lee Cronin一直在使用機器人隨機混合化學品，看看形成了什麽樣的新化合物。通過質譜儀，核磁共振儀和紅外光譜儀實時監測反應，系統最終學會預測哪種組合最具反應性。Lee Cronin說，即使不能進一步發現，機器人系統也可以讓化學家將研究速度提高90％左右。

去年，蘇黎世聯邦理工學院的另一組科學家利用神經網絡從一組數據中推導出物理定律。他們的系統類似於機器人開普勒(kepler)，通過記錄從地球上看到的太陽和火星在天空中的位置，重新發現了太陽系的日心模型，並通過觀察碰撞的球體，得出了動量守恆定律。

由於物理定律通常可以用不止一種方式表達，研究人員想知道這個系統是否會提供新的方法(也許是更簡單的方法)來思考已知的定律。

這些都是AI啟動科學發現過程的例子，儘管在每種情況下，我們都可以辯論新方法的革命性。

也許最有爭議的問題是，從數據中可以收集多少信息。在這個龐大的（並且不斷增長的）成堆的時代，這是一個迫切的問題。

在“The Why of Why”（2018年）一書中，計算機科學家Judea Pearl和科學作家Dana Mackenzie聲稱數據“非常愚蠢。”他們寫道：

關於因果關係的問題“永遠無法從數據中回答。無論何時，當你看到一篇論文或一項研究以一種非模型的方式分析數據時，你都可以肯定，這項研究的輸出只會進行總結，或許還會進行轉換，但不會解釋數據。

Schawinski同情Pearl的立場，但他把“單獨處理數據”的想法形容為“有點像稻草人”。他說，他從來沒有聲稱自己能以這種方式推斷因果關係。“我只是說，我們可以用數據做比通常更多的事情。”

另一個經常聽到的觀點是，科學需要創造力，而至少到目前為止，我們還不知道如何將其編程到機器中。Polsterer說：

每次你需要創造力的時候，你都需要一個人。要有創造力，你必須討厭無聊。我不認為電腦會感到無聊。另一方面，像“creative”和“inspired”這樣的詞經常被用來描述像“Deep Blue”和“AlphaGo”這樣的程序。描述機器“思想”內部的鬥爭反映在我們探索自己思維過程的困難上。

Schawinski最近離開了學術界的私營部門，他現在經營著一家名為Modulos的初創公司，該公司聘請了許多ETH科學家，據其網站稱，該公司“在人工智能和機器學習發展風暴的中心”工作。

無論當前的人工智能技術和成熟的人工智能之間存在何種障礙，他和其他專家都認為，機器正準備承擔越來越多的人類科學家的工作。是否存在限制還有待觀察。

Schawinski最後表示：

在可預見的未來，是否有可能製造出一台機器，能夠發現當今最聰明的人類用生物硬體無法獨立完成的物理或數學?科學的未來最終必然是由機器驅動的嗎?我不知道。這是個好問題。

英文原文：

https://www.quantamagazine.org/how-artificial-intelligence-is-changing-science-20190311/