每日最新頭條.有趣資訊

汪建:騰飛中的中國人類基因組學研究

  以人類基因組計劃完成為標誌,生命科學進入了大數據驅動的全新發展時期。以大人群覆蓋、大平台支撐、大數據驅動為特徵的人類基因組學研究已然成為生命科學的主流。

  文/華大集團聯合創始人、董事長汪建

  以人類基因組計劃完成為標誌,生命科學進入了大數據驅動的全新發展時期。以大人群覆蓋、大平台支撐、大數據驅動為特徵的人類基因組學研究已然成為生命科學的主流。

  大人群基因檢測大數據極大地提升了中國在人類基因組學領域的地位

  近期,通過對14餘萬例無創產前基因檢測數據進行系統性遺傳學分析,華大構建了迄今最大規模的中國人群基因頻率數據庫(CMDB),並已在國家基因庫同步上線(https://db.cngb.org/cmdb/)(圖1)。作為對中國14億人口的萬分之一抽樣,這14萬人的基因組數據從基因層面展現了大規模人口遷徙、飲食、氣候變化、文化交流等對中華民族歷史變遷的影響;從血漿病毒組、免疫應答和脂肪代謝效率等角度揭示了我國與歐洲人以及我國南北方人群之間的遺傳差異;同時,第一次發現了與身高、BMI、雙胞胎等複雜性狀相關的基因位點[1]。這些研究成果證明了生命科學已經從單個樣本的檢測和診斷,正式進入了組學大數據時代。未來,對基因大數據的研究和分析,將進一步促進群體遺傳學、複雜疾病、藥物研發等領域的發展,更好地指導個人的健康管理。

  深圳國家基因庫建立了完整、嚴格的數據安全和隱私保護體系,本研究涉及樣本和數據全部保留在國家基因庫。這意味著國際期刊對我國遺傳資源保護法規政策的充分尊重與認同,也代表著中國已經完全有能力與實力管理保護我國重要的遺傳資源,對我國的基因數據自主權具有非常重要的戰略意義。

  圖1:Cell文章截圖

  宮頸癌發病率在女性特有惡性腫瘤中高居第二,是世界上唯一病因明確,可防可控的惡性腫瘤,99.7%的宮頸癌和HPV(人乳頭瘤病毒)感染有關。在女性一生中,定期篩查,即可將宮頸癌患病幾率下降80%以上。利用高通量基因測序技術,華大已為我國超過300萬婦女提供了HPV檢測服務。這300萬人的大數據表明,區別於美國感染率最高的16、18、31型,我國主要HPV感染型別為52、16、58、68、18型(圖2)。其中,中國常見的HPV感染型別68、51、39型不能被目前已批準上市的疫苗所覆蓋。這些數據將對研發適合於我國人群的HPV疫苗具有一定的參考價值。

  圖2:中國人群HPV檢測陽性型別分布

  (數據來源:華大基因

  科研範式的發展與演化

  歷史各時期的科學研究方法跟隨技術的進步和社會環境的變化,不斷變化發展。2007年1月11日,已故圖靈獎得主吉姆·格雷(Jim Gray)在他最後一次演講“科學方法的革命”中,提出將科學研究分為四類範式:實驗歸納、模型推演、仿真模擬和數據密集型(即大數據)科學發現

  人類最早的科學研究主要以記錄和描述自然現象為主,以伽利略為代表的文藝複興時期的先驅們通過實驗科學開啟了現代科學之門;到了19世紀末,以法拉第、麥克斯韋等為代表的科學家們將以理論研究為基礎、通過演算進行歸納總結的科研模式發展到了極致;然而,隨著理論的難度和經濟投入的不斷提升,科學研究逐漸力不從心;還好,馮·諾依曼等人挺身而出,電子電腦成功問世,令大規模運算成為可能。隨著電子電腦的高速發展,利用電腦對科學實驗進行仿真模擬的模式迅速普及,成為當今最常用的科研方法;當下,隨著數據的爆炸性增長,基因組學、腦科學和天體物理學等越來越多的學科以數據為中心。正如開普勒從第谷對天體運動的系統觀察記錄中發現了行星運動定律那樣,數據轉化為知識的能力逐漸增強,數據的佔有權和控制權已逐漸成為國家間和企業間新的爭奪焦點。

  工具決定科研範式轉變

  雖然關於大數據驅動的系統性研究能否取代還原論式的“假說-演繹”科研範式一直充滿爭議,但毋庸置疑,人類需要借助新工具來觀察世界,認知世界。電子顯微鏡讓人類得以觀察微觀世界(10-9米);強子對撞機讓人類得以探索新的粒子(10-15米);借助引力波探測器,人類觀測到了中子星的合並,得以探索宇宙和物質的起源。因此,科研模式的選擇很大程度上取決於工具和資訊的獲取成本

  DNA雙螺旋的發現是顛覆性工具在生命科學領域應用帶來重大科學突破的典範。借助X光衍射工具,沃森(James D. Watson)和克裡克(Francis Crick)等人於1953年精確描述了DNA的雙螺旋分子結構,從此開啟了人類探索基因資訊的時代。借助基因解碼/測序技術,2000年,美、英、日、德、法、中等6國科學家共同完成了人類基因組圖譜,標誌著精準醫學時代的來臨。此後,基因測序工具的不斷迭代使得基因數據獲取通量呈指數級提高,成本則呈指數級下降。2000年完成的第一張人類基因組圖譜耗資30億美元,到了2018年完成一個人類全基因組測序只需要600美元,是18年前的五百萬分之一(圖3)。

  圖3:工具的進步與全基因組測序成本的下降

  紅線:測序成本下降,黃線:數據量上升

  大多數科研人員早已習慣了在研究中總是被導師、評委、甚至是自己追問“科學問題是什麽”、“科學假設是什麽”此類的問題,再按照“提出假設-設計實驗-收集數據-理論歸納”的範式探索生命奧秘。

  在分子生物學領域,針對膽固醇這個明星小分子的研究毋庸置疑是這種還原論式的“假說-演繹”科研的巔峰代表。縱觀諾貝爾獎歷史,共有13次各類獎項頒給了膽固醇相關的醫學生理學研究[2,3]。近一個世紀以來,膽固醇研究領域產出了許多重大的科學發現。然而,隨著研究的深入,直到今天,科學界關於膽固醇的生物功能仍然眾說紛紜,膽固醇到底是好是壞,人們莫衷一是,從表1所示的近年來膽固醇相關科學發現可見一斑。與此類似的還有如對花生四烯酸和DNA甲基化等的基於還原論的假說導向科研。未來,只有將這種“盲人摸象”式的還原論科研範式與大數據驅動的新型範式相結合,才能獲得對真實世界的真實認知。生命科學研究呼喚新的範式,快速發展的高通量低成本數據采集工具必將打破這個平衡,使天平向大數據驅動的科研範式傾斜[4]。事實上,美國政府已相繼提出了腫瘤登月計劃、Pan Cancer Atlas、百萬人基因組計劃等一系列精準醫學大科學計劃和工程,英國政府也宣布將在未來五年內開展五百萬人基因組計劃,深刻地反映出基因組大數據工具的突破與部門成本的快速降低給生命科學帶來的重大變革。

  表1:近年來膽固醇相關科學發現一覽

  大數據方法為還原論與整體論的辯證統一提供了技術實現途徑

  1984年,蓋爾曼(Murray Gell-Mann)等3位諾貝爾獎得主成立以研究複雜性科學為主的聖塔菲研究所(Santa Fe Institute),提出了“超越還原論”的口號,掀起了一場複雜性科學運動。而所謂還原論,簡單來說,就是認為複雜的系統、事務、現象可以通過將其化解為各部分之組合的方法。

  當前,科學系統的根基依然是主宰科學研究幾個世紀的“還原論”式的“假說-演繹”。科研人員習慣於先提出世界是如何運作的假設,然後通過收集和分析數據來驗證這種假想。儘管我們對單個人、單個基因以及單個原子等的了解越來越多,但對整個社會、整個生命系統和物質系統的理解並沒有顯著增加,有時甚至與系統的真諦漸行漸遠[5]。而吉姆·格雷提出的基於從真實世界中獲得的大量已知數據,計算得出未知的可信理論的數據驅動科學知識自動發現的研究模式,具有系統性和整體性,總會給人以驚喜,還原客觀真實世界。

  當下,電腦的高速發展大大增強了人類研究和處理複雜問題的能力。谷歌在廣告業務上收入不菲,往往被視為大數據應用的經典案例。2008年,全球領先的科技媒體美國Wired(連線)雜誌主編克里斯·安德森(Chris Anderson)在《理論的終結》一文結尾中(“The end of Theory”)[6]問:“現在是時候問這個問題了:科學能從谷歌那兒學到什麽?”

  大人群基因檢測大數據驅動中國人類基因組學研究

  華大自參與完成人類基因組計劃以來,不斷挑戰極限,現已成為全球最大的基因組學研發機構。借助完全自主可控的國產測序儀,華大致力於將前沿的多組學科研成果應用於醫學健康、農業育種、資源保存等領域,推動基因科技成果轉化,逐步實現基因科技造福人類

  無創產前基因檢測是人類基因組計劃以來一項裡程碑式的醫學檢測應用項目。2010年,無創產前基因檢測臨床服務開始在全球推廣應用,中國無創產前基因檢測行業發展迅速,無論技術還是機構實力都在全球躍居領先地位。截至2018年4月,全球檢測樣本超過1000萬例,我國共檢測約700萬例,僅華大基因一家檢測樣本即超過350萬例。華大以全球最低的價格,使這項檢測惠及最多的人群,幫助2萬多個家庭免於染色體異常疾病的困擾。以深圳為例,根據深圳市婦幼保健院監測的數據,隨著全面二孩政策的放開,高齡產婦的增加,深圳唐氏綜合征總發生率明顯上升,由2011年的4.70/萬上升為2017年的11.64/萬,但隨著無創產前基因檢測技術的普及,深圳唐氏綜合征的活產比從2011年的50.21%大幅下降至2017年的7.22%(圖4)。

  圖4:深圳無創產前檢測數據

  (數據來源:深圳市衛計委、華大基因)

  從“小科學”到“大科學”

  20世紀以來,科學的面貌發生了翻天覆地的變化,科學研究的複雜性、開放性、交叉性顯著增強,人類從由科學家個人或小組設定問題、獨自執行、探索式解決的“小科學”時代逐漸步入了科研難度大、需要複雜的儀器設備和投入大量科研經費的大規模研究的“大科學”時代。大科學時代,以曼哈頓計劃、阿波羅登月計劃、人類基因組計劃等為代表的大科學計劃和工程以我們難以預料的速度和難以想象的方式影響著世界格局的變幻和人類社會的進步。

  “大科學”的出現意味著大眾所熟悉的科研方式已經發生了變化,甚至科學本身的屬性也已經變了。以華大為代表的產業機構以解決社會實際問題為導向,與各個學校、各個國家,甚至各個領域的企業和科學家集體突破“大科學”項目,強調打造標誌性科研成果,制定行業標準。潤物細無聲,從第一個人類基因組到第一個中國人基因組,從千人計劃到百萬中國人群體基因組研究,這些工作為後續應用研究提供的基礎數據,幫助我國人類基因組學研究逐漸樹立起強大的國際影響力的領域話語權,對人類遺傳學發展的影響將激蕩久遠。

  歷史無絕代,社會無終態,科學無止境,真理無絕倫。正如兩院院士宋健(筆名宋牮)先生2015年在《還原論和系統論》一文中寫道:分解還原,整體抽象,各有所長。曷益悲花憐月,貶褒桃李[7]。在揭示生老病死奧秘的征途上,傳統的分子生物學方法和大平台支撐、大數據驅動的基因組學方法都不可或缺。承認與否,中國的人類基因組學遺傳研究已然強勢起飛。在這百年一遇的歷史機遇面前,中國的生命科學能從華大的發展中學到什麽?能否放手一搏,奮力爭先?

  參考文獻

  [1] 華大發布最大規模中國人基因組學大數據研究成果,

  https://mp.weixin.qq.com/s/xmiOFfax77W9pJ5kUmtSwg

  [2] Trends in Cholesterol Research,By M. A. Kramer

  [3] The great cholesterol myth: unfortunate consequences of Brown and Goldstein‘s mistake,M.Eastwood, An International Journal of Medicine, Volume 105, Issue 2, 1 February 2012, Pages 214, 

  https://doi.org/10.1093/qjmed/hcr227

  [4]Hypothesis-limited research,Goodman L., Genome Res.1999 Aug;9(8):673-4.

  [5] 大數據研究的科學價值,李國傑,中國電腦學會通訊2012年·9月·第8卷·第9期

  [6] Chris Anderson, The end of theory, https://www.wired.com/2008/06/pb-theory/

  [7]還原論和系統論,宋牮,前沿科學(季刊)2015·4·第9卷·總第36期

  (本文作者介紹:深圳華大基因研究院院長)

獲得更多的PTT最新消息
按讚加入粉絲團