每日最新頭條.有趣資訊

AlphaGo後再出神作!DeepMind打造新物種擊敗人類

新智元報導

來源:DeepMind等

編輯:大明

【新智元導讀】繼AlphaGo在圍棋上碾壓人類後,DeepMind再放大招!這次戰場轉移到了基礎科學研究領域:蛋白質折疊結構的預測。在有蛋白質結構預測的“奧運會”之稱CASP全球競賽上,DeepMind推出的AI工具AlphaFold以優異成績碾壓了人類專家。

還記得在圍棋上碾壓人類棋手的AlphaGo嗎?現在,AlphaGo的締造者DeepMind又再另一領域碾壓了人類專家。

這個領域就是“蛋白質折疊”,也就是蛋白質結構的精確預測!這是DeepMind首次將視角投向科學研究的基礎問題。在有蛋白質結構預測的“奧運會”之稱CASP全球競賽上,DeepMind推出的AI工具AlphaFold以優異成績碾壓了人類專家。

DeepMind匯集了來自結構生物學,物理學和機器學習領域的專家,以應用尖端技術,僅根據其基因序列預測蛋白質的3D結構。

過去兩年來,DeepMind一直在研究開發AlphaFold,該研究建立在多年研究基礎上,使用大量的基因組數據來預測蛋白質結構。 AlphaFold生成的蛋白質3D模型比之前的任何蛋白質都更加準確 - 在生物學的核心挑戰之一上取得了重大進展。

什麽是“蛋白質折疊”問題?

蛋白質是維持生命所必需的結構複雜的大分子。我們的身體幾乎所有功能,包括肌肉收縮、感知光線或將食物轉化為能量,都與一種或多種蛋白質的移動和變化情況有關。蛋白質由基因構成,基因在我們的DNA中編碼。

對於任何給定的蛋白質,它的功能取決於其特有的3D結構。比如構成我們免疫系統的抗體蛋白質是“Y形”的,類似於一種特殊的鉤子。通過抗體蛋白質能夠鎖定病毒和細菌,檢測和標記致病微生物,以便消滅它們。而膠原蛋白的形狀就像繩索,在軟骨、韌帶、骨骼和皮膚之間傳遞張力。

其他類型的蛋白質包括CRISPR和Cas9,它們能夠像剪刀一樣,切割和粘貼DNA。還有抗凍蛋白,其3D結構使其能夠與冰晶結合,防止生物體凍結。和核糖體一樣,可以像程式化的裝配線一樣,幫助自己構建蛋白質。

但是純粹從其基因序列中確定蛋白質的三維形狀是一項複雜的任務,挑戰在於DNA僅包含有關蛋白質結構塊序列的資訊,這些結構塊稱為氨基酸殘基,排布形成長鏈。預測這些長鏈按照何種方式折疊成蛋白質的複雜3D結構,就是所謂的“蛋白質折疊問題”。

蛋白質越大,模型就越複雜和困難,因為氨基酸之間的相互作用更加複雜。有研究人員估計,以現有的條件的水準,要想準確確定全部蛋白質的3D結構,需要的時間可能比宇宙的壽命還要長。

為什麽“蛋白質折疊”很重要?

預測“蛋白質折疊”的結構,對科學家來說是很有用的,可以通過這種方式了解蛋白質在人體內的作用,對阿爾茨海默氏症,帕金森氏症,亨廷頓氏症和囊性纖維化等由蛋白質折疊方式錯誤而引發的疾病的診斷和治療而言,這個問題就顯得更加重要。

通過研究蛋白質折疊,能夠增進我們對人體運行機制的理解,使科學家能夠更有效地設計新的、高效的疾病療法。通過模擬和模型獲得更多關於蛋白質形狀及其運作方式的知識,也給新藥物的開發開辟了新的潛力,降低了與實驗成本。最終得以改善全世界數百萬患者的生活品質。

對蛋白質折疊的理解也將有助於蛋白質的設計,比如推進生物降解酶技術的進步,就可以通過對蛋白質設計來實現。生物降解酶可以對塑料和石油等汙染物實現控制管理,讓人們用更加環境友好的方式分解廢物。事實上,研究人員已經開始設計細菌來分泌蛋白質,提高廢物的可降解度。

為了衡量人類在蛋白質結構測定技術上的新進展,1994年,科學家發起了名為“蛋白質結構預測技術關鍵評估社區範圍實驗”(CASP)的全球競賽,該比賽每兩年舉辦一次,現已成為領域內評估蛋白質結構水準的“金標準”,堪稱蛋白質結構預測領域的“奧運會”。

此次DeepMind讓AlphaFold參加本次盛會。比賽目標是從主辦方給出氨基酸成分列表中預測蛋白質的結構,這些表會在賽前幾個月內每隔幾天發給參賽團隊。提交最準確預測資訊的團隊將獲勝。

結果首次參賽的AlphaFold 就在98位參賽者中脫穎而出,以碾壓級優勢一舉奪冠。在對總共43種蛋白質的預測中,AlphaFold獲得了其中25種的最高分數,排名第二的隊伍獲得最高分數的蛋白質只有3種。

AI在“蛋白質折疊”任務中大展身手

在過去半個世紀中,科學家們已經能夠使用冷凍電子顯微鏡、核磁共振或X射線晶體學等技術來確定實驗室中蛋白質的形狀,但每種方法都依賴於大量的試驗,而且錯誤率不低,且成本高昂。越來越多的生物學家正在轉向了AI方法,作為解決這個困難問題的替代方法。

由於基因測序成本的快速降低,基因組學領域的數據非常豐富。因此,在過去幾年中,依賴於基因組數據的預測問題的深度學習方法變得越來越流行。

AlphaFold從頭開始對蛋白質的形態結構進行建模,而沒有使用已經解析的蛋白質作為模板。結果在預測蛋白質結構的物理性質時達到高準確度,在此基礎上使用兩種不同的方法,來構建完整蛋白質結構的預測。

基於深度學習的蛋白質結構預測新方法

這兩種方法都依賴於深度神經網絡,可以從蛋白質的基因序列中預測其特性。該網絡預測指標主要有兩個:(1)氨基酸對之間的距離(2)連接這些氨基酸的化學鍵之間的角度。這是對目前的一種常用技術的進一步推進,該技術用於估計氨基酸對之間是否彼此接近。

DeepMind團隊訓練神經網絡,預測蛋白質中每對殘基之間的距離的單獨分布。然後將這些概率進行組合,形成相應蛋白質結構預測的準確度分數。此外還訓練了一個單獨的神經網絡,將所有的預測距離匯總,估計出預測結構與實際結構間的接近程度。

使用這些評分函數,可以找到與預測相匹配的蛋白質結構。第一種方法建立在結構生物學中常用的技術基礎上,用新的蛋白質結構片段反覆替換原蛋白質結構片段。為此,研究團隊訓練了一個生成神經網絡來發明新的蛋白質片段,不斷提高預測的蛋白質結構的得分。

第二種方法通過梯度下降來優化得分。梯度下降是機器學習中常用的技術,可用於實現微小的,漸進式的改進,最終產生高精確的結構。研究人員將該技術用於整個蛋白質長鏈上,而不是在組裝之前必須單獨折疊的碎片上,降低了預測過程的複雜度。

未來:繼續投入解決科學上的基礎性問題

DeepMind首次涉足蛋白質折疊領域就獲得成功,表明機器學習體系具備無窮潛力,可以整合各種資訊源,幫助科學家快速提出解決複雜問題的創造性解決方案。正如AI通過AlphaGo和AlphaZero等系統在圍棋上的突破一樣,希望在不遠的未來,AI技術突破將幫助我們解決科學上的基礎性問題。

“對我們來說,這是一個非常關鍵的時刻,”DeepMind的聯合創始人兼首席執行官Demis Hassabis說。“這是一個燈塔項目,是我們在人員和資源方面,向解決現實世界中的重大基礎科學問題做出的第一次重大投入。”

Hassabis表示,未來還有很多工作要做。目前我們還沒有解決蛋白質折疊問題,現在取得的結果只是第一步。“這是一個極具挑戰性的問題,但我們建立起了一個很優秀的系統,而且還有很多想法尚未真正實施。”

參考鏈接:

https://deepmind.com/blog/alphafold/

https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備注(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

獲得更多的PTT最新消息
按讚加入粉絲團