每日最新頭條.有趣資訊

科學家正在利用細胞生物學,破解人工智能“黑匣子”

機器學習系統建立在人造神經元層上,稱為神經網絡。這些網絡層通過神經元之間看似隨意的連接而聯繫在一起,而整個系統會通過微調這些連接進行"學習"。

這已經成為如今人工智能系統有效運行的重要支撐,然而,它卻以極為"神秘"的方式運作。

科學家正在利用細胞生物學,破解人工智能“黑匣子”

對於諸如"這是一隻貓的照片嗎?""下一步棋該怎麽走?""自動駕駛汽車在遇到黃燈時是否應該加速?"等等問題,神經網絡往往能夠輕鬆給出答案,但關鍵問題在於,我們並不知道它是如何做到的。這就是所謂的"黑匣子"。

而為了讓人工智能在具體應用中變得更值得信賴,越來越多的研究者正在試圖打開"黑匣子",理解系統得出某個具體結論的過程。

最近,美國加州大學聖迭戈分校生物工程與醫學教授Trey Ideker與他的研究團隊一起,開發了一種"可見"的神經網絡,並用它構建了稱之為DCell的啤酒酵母細胞模型(通常被用作基礎研究的一種模型)。

具體而言,就是將神經網絡映射到簡單的酵母細胞內,使得研究人員能夠觀察AI系統的運作方式。在這個過程當中,研究人員得到了關於細胞生物學的諸多分析結論,而由此產生的技術還可能有助於研發新的癌症藥物和個性化治療方案。

首先,介紹一下當今機器學習系統中使用的神經網絡的相關基礎知識:

電腦科學家通過設定多個圖層來建立神經網絡框架,其中每個圖層包含數千個負責執行微小計算任務的"神經元".

在此基礎上,培訓人員輸入數據集(例如數百萬張貓、狗的照片,數百萬次圍棋落子,數百萬種駕駛操作與結果等),由系統連接圖層中的神經元,對其進行結構化序列計算。該系統將通過神經網絡進行數據處理,然後檢查其執行任務的實際效果(例如將貓與狗者區分的準確度)。

最後,通過重新排列神經元之間的連接模式並再次運行數據集,檢查新模式是否產生更好的結果。當神經網絡能夠非常準確地完成任務時,培訓人員就會認定訓練成功完成。

"雖然它們被稱為神經網絡,但這些系統所受到的人類神經系統啟發還非常初級。"Ideker解釋道。

他指出:"著眼於AlphaGo,可以發現這套系統的內部工作方式完全是一團亂麻,事實上根本不像人腦。它擁有一種全新的思維方式,但只是恰好能夠作出不錯的預測結論。"

作出於此,Ideker開始在細胞生物學人工智能研究當中作出新的嘗試。他希望能夠利用神經網絡向研究人員們展示這些結論的得出方式,而不僅是簡單粗暴地給出答案。

Ideker在接受采訪時表示:"我們對於這樣一套並非由電腦科學家進行優化,而是通過進化完成優化的特定結構抱有濃厚興趣。"

科學家正在利用細胞生物學,破解人工智能“黑匣子”

▲ DCell可以像實驗室實驗一樣精確地預測酵母細胞的生長和繁殖

這一項目之所以具備可行性,是因為釀酒酵母是一種單細胞生物,從上世紀五十年代以來就一直被作為一類基礎生物系統接受研究。Ideker指出:"我們擁有大量細胞生物學知識可供參考,因此這項研究非常方便。"

因此,他的團隊通過把神經網絡中的各個圖層映射至酵母細胞的組成部分中,從最微觀的組成元素(構成DNA的核苷酸)開始,逐步向上延伸至更大的結構--例如核糖體(從DNA處獲取指令以製造蛋白質),最後到達線粒體及細胞核等細胞器(負責執行細胞活動)。總體而言,這套DCell神經網絡將運用到酵母細胞中的總計2526個子系統。

科學家正在利用細胞生物學,破解人工智能“黑匣子”

▲ DCell作為在線應用程式可供研究人員

DCell允許研究人員們變更細胞的DNA(即遺傳代碼),並觀察這些變化如何向上蔓延以改變其生物學特徵,進而影響到後續細胞生長與繁殖。其訓練數據集由來自數百萬個真實酵母細胞的基因突變實例組成,且與對應的突變結果資訊相匹配。

研究人員發現,DCell能夠通過模擬酵母來準確預測細胞的生長。由於這是一套"可見"的神經網絡,因此研究人員們能夠看到細胞機制在進行DNA混淆時發生的改變。

這種可視性,意味著DCell能夠潛在應用於細胞的電腦製研究,且無需耗費大量時間與實驗室實驗資源投入。如果研究人員能夠弄清其實際建模過程--而非簡單的酵母細胞,則可進一步模擬更複雜的人類細胞。"如果能夠構建單一人體細胞的整體工作模型並對其進行模擬,這將徹底改變精準醫學與藥物研發的發展方向。"Ideker表示。

癌症是目前最受關注的疾病研究方向,因為每一位癌症患者的腫瘤細胞都包含獨特的突變組合。而Ideker和他的團隊正在使用患者的基因組與突變條件建立模型,觀察細胞的實際生長速度,以及癌症的侵略性特性。

更重要的是,致力於尋找癌症新藥的製藥企業將能夠利用細胞生長情況作為成功或失敗的評判標準。他們將觀察到眾多可以開啟及關閉的不同基因分子,並據此思考某種潛在藥物是否能夠停止腫瘤細胞的增殖。考慮到以往需要數十億美元進行抗癌藥物研發投入,如今這種更為便捷的研究方式明顯更具吸引力。

當然,要從酵母細胞更新為人類細胞絕非易事。研究人員需要收集與人類患者相關的足夠資訊,從而構建起神經網絡所必需的訓練數據集--至少需要數百萬條記錄,其中包含患者的遺傳圖譜與健康結果。Ideker預測稱,這些數據的積累速度會相當快。在他看來,對患者基因組進行測序將受到高度關注。

而更棘手的部分在於積累人類癌細胞活動機制的知識,只有這樣才能將神經網絡映射至細胞中的各個部分。Ideker本人正是癌細胞繪圖計劃的成員之一,他們希望能夠盡快解決這一挑戰。目前,對癌細胞的生物活動進行歸納是一項非常困難的任務,因為這些突變不僅能夠開啟及關閉細胞功能,同時也會對細胞功能造成不同程度的影響,並以極為複雜的方式引發協調性變化。

不過,Ideker對於利用遷移學習技術將機器學習方案從模擬酵母細胞轉化為模擬人類細胞的神經網絡仍抱有樂觀態度。他總結稱:"只要建立起一套能夠識別貓的系統,那麽無需對其進行完全重新訓練,也可以教會它如何識別松鼠。"

獲得更多的PTT最新消息
按讚加入粉絲團