當AI仰望星空的時候，它在想什麽？

文章來自“科學大院”公眾號

作者：閆震

2016年，AlphaGo 戰勝圍棋冠軍李世石之後，人工智能開始火了。各行各業都在探索人工智能的應用。尤其是在人臉識別領域，人工智能的應用飛速發展。

深圳交警在全國率先正式啟用“刷臉”執法（圖片來源：Leiphone.com）

2018年5 月 19 日，哈裡王子的婚禮直播中採用人臉識別技術。這項技術將由亞馬遜雲服務（Amazon Web Services）提供，可以一秒識別 600 位賓客的身份。（圖片來源：Sky News）

最近每隔一兩個月就有新聞報導在歌神張學友的演唱會上有逃犯被抓，因此歌神獲得了“逃犯克星”的美譽，其背後的功臣就是人工智能加持的人臉識別系統。既然人工智能這麽厲害，那麽它是不是能幫助我們識別浩瀚星空中的星系呢？

此音叉不會演奏音樂但可讓星系排排坐

在天文學領域，也有一項研究和人臉識別類似，就是星系形態的識別。天文學家通過星系的外觀長相對星系進行分類，其中最有名的一種分類方法是由著名的天文學家Edwin Hubble （哈勃）於1926年提出的哈勃序列。

他按照結構從簡單到複雜把星系排序：排在最左邊的是球對稱的橢圓星系，橢率越大的漩渦星系被排列在越右邊。橢圓星系序列的最右端是透鏡星系（因為其形狀像透鏡）。擁有旋渦結構的星系被劃分到再右邊的兩個序列中：旋渦星系和帶棒狀結構的棒旋星系。因為這個分類結果很像音叉，所以又稱為“哈勃音叉”（見圖1）。

哈勃音叉圖（圖片來源：維基百科）

天文學家為什麽需要根據形態對星系分類呢？因為星系的形態往往反映了其形成和演化的歷史，這包括星系之間合並的歷史、星系周圍的環境、星系內部的擾動、中心黑洞的活動以及恆星形成的歷史等等。因此在研究星系的形成與演化方面，基於星系形態進行的分類為天文學家們提供了非常有價值的信息。

不同歷史時期的“哈勃音叉圖”（從左到右為：現在、40億年前和110億年前，圖片來源：NASA, ESA, M. Kornmesser）

幾十年來，該領域的研究都是依賴天文學家人眼識別對星系形態進行分類，這樣產生的研究樣本數量都不是很大，例如最初的“哈勃音叉圖”隻包含大約400個星系。當現代大型巡天項目比如斯隆數字巡天（SDSS）開始運行之後，上百萬的星系需要進行分類，這樣的工作量對於個人或者小型團隊來說顯然無法完成。於是天文學家們想到了不同的辦法來處理海量的星系圖像。

星系動物園：熱心的群眾不止會吃瓜

2007年，天體物理學家Kevin Schawinski希望從統計上比較橢圓星系和旋渦星系的恆星形成率。為此他需要給斯隆數字巡天數據柯瑞的上百萬顆星系形態分類。他一周連續工作七天每天工作12個小時，才識別出五萬顆星系。

一個周五的晚上，Schawinski和他的好友兼同事Chris Lintott在酒吧喝酒的時候聊起了這項研究工作，受 NASA 一個項目的啟發，他們有了一個想法：把這些星系圖像發布到一個網站，讓那些感興趣的愛好者幫忙識別星系，做成一個科研方面的眾包項目（見圖2）。在接下來的幾天，在幾個熱心程序員的幫助下，Lintott 和 Schawinski做了一個網站，並於7月14日上線，這個項目被命名為“星系動物園”（Galaxy Zoo）。

果然是人多力量大，上線不到24小時，星系識別的速度就達到了每小時7萬多個，超過了Schawinski一周的工作量。甚至由於訪問量過大，使得斯隆數字巡天項目的伺服器宕機了。網友的熱情大大超出了兩位創始人的預期。在Lintott發表的第一篇關於Galaxy Zoo的學術論文中，已經有10萬人次進行了4千萬次分類，而且志願者們的分類準確度和專業的天文學家相比，誤差在10%以內，即使隻把其中最為可靠的分類結果挑選出來組成樣本，數量也比之前最大的樣本高出一個數量級。

無論是從科學產出還是從社會影響力方面，星系動物園成為了最為成功的公眾科學項目。截止到2017年，總共有超過一億兩千五百萬個星系被分類，基於這些分類結果，有超過60篇學術論文發表。荷蘭的女教師Hanny van Arkel甚至發現了一種新的奇特的天體，後來還以她的名字命名為“Hanny's Voorwerp”。就如Schawinski所說，“我們成功創建了世界上最強大的星系識別超級計算機，它是由登錄我們網站的人們組合而成，這個超級大腦在識別星系方面達到的速度和精度令人難以置信。”

在“星系動物園”項目獲得巨大的成功之後，他們相繼發起了一些類似的針對其他巡天結果的星系形態識別項目,比如“星系動物園2”、“星系動物園：Hubble”和“星系動物園：CANDELS ”。但是志願者的增加速度並沒有趕上數據增加的速度，而且在未來，當更大的巡天項目（比如LSST，EUCLID等）開始運行以後，將有數以億計的星系需要分類，即使依賴更多的志願者顯然也無法在短時間內完成。

星系動物園：志願者們通過回答上述問題來完成對星系形態的分類（圖片來源於Willett等2013年論文“Galaxy Zoo 2: detailed morphological classifications for 304122 galaxies from the Sloan Digital Sky Survey”）

機器識別錯誤率高？科學家們出新招

大家自然會想到，為什麽不讓計算機來做這些海量的“看起來很簡單”的工作。其實問題就在於這樣的工作對於計算機來說並不簡單，自動識別圖像一直是計算機領域一個難題。人腦在圖像模式識別方面的能力是遠勝於計算機的，但是我們也可以讓計算機程序學習這種本領，機器學習就是實現人工智能的一種方法，現在各種人工智能使用的方法主要就是機器學習。這種方法利用程序從數據中自動學習隱藏的規律，並用來預測未知的數據或者做出決策。

天文學家們也一直嘗試使用各種機器學習方法自動識別星系的形態，但最初的嘗試並不順利。早在1995年，天文學家們就用神經網絡、決策樹等機器學習方法對星系形態進行分類，儘管這些早期的嘗試隻應用於幾百個星系的小樣本，但是正確率也只有80%。而且這些研究大都只是把星系分為三類：橢圓星系、漩渦星系和其它。如果再進行更複雜的分類，正確率將大幅下降。比如2004年的一項研究發現，僅僅把三種類別增加到五種，就使得正確率大約從90%下降到50%。

2013年底的時候，“星系動物園”項目組發起了一項獎金高達一萬六千美元的挑戰賽，挑戰賽的目標就是希望機器學習算法利用“星系動物園2”項目的數據集能夠達到人眼識別星系類別的水準。最後，比利時根特大學的博士生Sander Dieleman獲得了第一名。其實他原本的研究方向和天文完全不相關，是關於利用機器學習算法進行音樂信息的提取和分類。他利用卷積神經網絡算法進行星系形態分類，取得了和人眼識別幾乎完全一致的結果。

人臉識別時每一層神經網絡“學習”的特徵。（圖片來源：http://web.eecs.umich.edu/~honglak/icml09-ConvolutionalDeepBeliefNetworks.pdf）

卷積神經網絡是近些年在圖像識別領域日漸主流的算法。尤其是在人臉識別領域，該方法可以讓機器學習達到甚至超過人類的水準。所謂“卷積”是一種數學運算，這種運算應用到圖像上，相當於為圖像加上某一種濾鏡。這種濾鏡稱為“濾波器”或“特徵探測器”，它可以提取圖像的某些特徵，產生的結果叫做特徵圖（feature map）。

算法由許多層組成，每一層都可以使用多個濾波器以探測圖像的多個特徵，特徵的複雜性隨著層數的增加而增加，即形成一個“網絡”。比如在圖像分類中，一個卷積神經網絡的第一層學會了探測像素中的邊緣，然後第二層利用這些邊緣再去探測簡單的形狀，更高層再利用簡單的形狀去探測更高級的特徵，比如人臉形狀；最終得到此圖像屬於不同類別的概率。

在傳統機器學習中，需要人為地根據經驗和專業知識設計這些“濾鏡”，這一步需要耗費大量的時間和人力。卷積神經網絡的好處是可以從數據中自動“學習”需要提取的特徵。但是它需要海量的標準的數據樣本進行“學習”，這個數據樣本叫做訓練集，而且越複雜的算法需要越大的訓練數據集。對於星系形態分類來說，“星系動物園”項目中成千上萬的人對星系圖像進行標注，產生的結果自然就可以就成為了各種卷積神經網絡算法的訓練和測試數據集，這個龐大的標準的數據集對於機器學習的效果至關重要。

在這個挑戰賽中，Dieleman和合作者選取了大約6萬張“星系動物園2”項目中標記好的星系圖像作為訓練數據集，他們通過改變圖像中心、鏡像對稱以及旋轉來產生新的圖像，擴大訓練數據集。其中旋轉圖像能夠讓神經網絡學習星系的旋轉對稱性。這一步非常重要，因為星系形態分類不應該依賴觀察圖像的方向，而獲取那些恆定不變的特徵是非常關鍵的。

然後他們利用這個數據集訓練卷積神經網絡，像人類一樣回答圖2中一系列的問題。他們的網絡有7層，每一層都能夠為了更高階的特徵而有效過濾數據。之後，他們利用訓練好的神經網絡測試另外大約8萬張星系圖像，進而將程序識別的結果和人眼識別所標記的結果比較。最終Dieleman的算法獲得的分類結果幾乎和人眼一致，而且個人電腦就足夠提供算法所需要的計算能力。

訓練集可以“移花接木”嗎？

前面提到過機器學習非常依賴訓練集的質量，而眾包產生的人類識別結果依然是最好的訓練集。機器學習存在一個問題：訓練好的算法隻適用於特定的數據集，當你提供不同的數據集時，算法並不會自動做出調整。這樣在特定數據集有效的算法可能在另一個數據集失效。由於不同巡天項目的望遠鏡分辨率、靈敏度和點源擴展函數等都存在差異，不同的巡天項目相當於不同的數據集。

因此人們希望回答下面的問題：在現在的算法水準下，是不是每個巡天項目都需要建立一個數量龐大的訓練集？有沒有可能利用A巡天的訓練集“學習”得到的算法應用於B巡天，這樣又可以大大減少人類的工作量。假如不能完全應用，那麽從A巡天訓練集“學習”的知識有多少可以應用到B巡天？需要做出多少改進才能完全應用於B巡天？

Dominguez Sanchez和她的合作者們在2018年嘗試解答上面的問題。他們將原本用於斯隆數字巡天第七次公開數據的算法應用於暗能量巡天（Dark Energy Survey）的星系圖像。當利用斯隆數字巡天訓練的算法直接應用於暗能量巡天的星系圖像時，識別精度勉強可以（>80%），當利用暗能量巡天的已經識別的樣本繼續訓練算法，即使採用很小的樣本（比如500個已經識別的星系圖像）也能夠顯著提高算法對暗能量巡天的星系圖像的識別精度（>95%）。這項研究工作告訴我們卷積神經網絡的“學習”成果具有可遷移性，而且應用到新的巡天項目的星系圖像時，所需要增加的新的訓練集可能只是原本的十分之一。

除了光學波段，天文學家也把卷積神經網絡應用於射電波段的星系圖像。最近南非的天文學家 Aniyan 和澳大利亞天文學家Chen Wu 分別根據不同的分類方法利用卷積神經網絡對射電星系進行分類，這些先驅性的研究將為以後的平方公里陣（Square Kilometer Array）射電望遠鏡做準備。平方公里陣射電望遠鏡是計劃建在南非和澳大利亞的全球性合作項目，我們中國也是主要成員國之一。當它開始運行之後，也將有數以億計的射電星系需要被證認和分類，屆時我們也只能依靠機器學習來完成這項繁重的工作。

未來，依靠卷積神經網絡將星系們歸類，人類將在認識宇宙的路上又邁出一大步！

作者部門：中國科學院上海天文台

文章首發於科學大院，轉載請聯繫[email protected]

科學大院是中科院官方科普微平台，由中科院科學傳播局主辦、中國科普博覽團隊運營，致力於最新科研成果的深度解讀、社會熱點事件的科學發聲。