每日最新頭條.有趣資訊

北大李程組綜述:三維基因組學及在疾病中的應用

撰文 | 李瑞風、劉玉婷、侯英萍、淦晶波、吳朋澤

翻譯 | 蘇嘉昱、付雲天、李瑞風

摘 要

在真核生物中,染色質會被摺疊成複雜的三維結構並在生命活動中動態調控。最近幾年,許多研究染色質三維結構的技術紛紛湧現,包括3C(染色質構象捕獲,Chromosome Conformation Capture)技術和基於3C的其他技術(Hi-C,ChIA-PET等),使得人們可以研究三維基因組結構改變對基因調控的影響。越來越多的研究揭示三維基因組結構在基因表達和細胞功能調控中有著重要作用。特別地,許多疾病都與遺傳變異相關,而大部分變異位於基因組非編碼區,因此傳統的測序方法很難確定變異導致疾病的具體機制。藉助三維基因組技術,我們可以研究疾病中非編碼基因組區域的改變對染色質相互作用和對基因表達的影響。在這篇綜述中,我們將介紹目前的三維基因組技術,並聚焦於它們在癌症和其他疾病研究中的應用,同時也展望了三維基因組學在臨床疾病領域的發展方向。

染色質構象捕獲技術

染色質構象捕獲技術的出現對研究染色質太空結構至關重要。目前在3C和基於3C的技術上的重大突破,使得我們可以更詳細地分析基因組的三維結構。在此,我們回顧了捕獲染色質相互作用圖譜的關鍵的技術【表1】

表1:3C和基於3C的技術概覽

3C技術1最早由Dekker及其同事於2002年開發。該技術可以捕獲兩個特定基因組位點之間的長程染色質相互作用。用於3C分析的樣品需經歷一系列的實驗步驟處理(圖1),包括甲醛固定以便原位交聯(in situ cross-linking)、限制性酶酶切、太空位置接近的DNA末端的連接,最後使用兩個目標基因組位點的引物進行PCR來識別相互作用。然而,3C技術也有其限制:它只能用於兩個預先設計好的基因組位點之間的染色質相互作用分析。2006年,基於3C改進的4C技術被開發出來,被命名為「晶元上的染色質構象捕獲」(Chromosome Conformation Capture on a Chip,4C)2,3。利用4C可以檢測一個基因組位點對多個基因組位點之間的相互作用。為了建立並行捕獲多對多位點間的相互作用的方法,研究者們開發了一種高通量的3C方法,並命名為3C-Carbon Copy(5C)4,用於檢測β-珠蛋白基因位點上的順式和反式染色質相互作用。

圖1:染色質構象捕獲技術和三維染色質結構。染色質構象捕獲技術(3C)和基於3C的各項技術的實驗原理及流程。

為了實現高通量的染色質相互作用分析,Dekker和同事們在2009年又開發了Hi-C,這是一種將DNA酶切連接與大規模測序相結合的方法,用於繪製全基因組水準上染色質互相作用5。2014年,研究人員使用原位Hi-C6技術在9個細胞系中構建了千鹼基(kilobase)級別解析度的染色質相互作用圖譜,因而能夠檢測增強子和啟動子之間的染色質環(loops)。最近,單細胞Hi-C的方法7-9揭示了單細胞內的染色質相互作用及這種作用在細胞間的異質性。此外,許多Hi-C分析和可視化的工具已經被開發,以幫助我們分析和解釋Hi-C數據【表2

表2:Hi-C數據分析和可視化工具

儘管Hi-C技術是挖掘全基因組水準染色質相互作用資訊的強大工具,但由於許多不含染色質相互作用資訊的無效測序片段的存在,Hi-C對高通量測序數據的可用率較低 (30%~60%)。靶向染色質捕獲技術(T2C)10和Capture-C技術11將酶切產物和標記有生物素探針雜交,從而富集感興趣的染色質區域上的染色質互作片段。此外,Capture-Hi-C12技術可實現數百倍的片段富集,極大地提高了對感興趣染色質區域局部相互作用的檢測效率。然而,基於捕獲的方法並不能從全基因組水準觀察染色質相互作用。

前文所提及的3C,4C,5C到Hi-C,T2C和Capture-Hi-C的技術,並不以捕獲由特定蛋白質(如轉錄因子)所介導的染色質相互作用為目標。為了鑒定這種特定的染色質相互作用,研究者們將3C與染色質免疫沉澱(ChIP)相結合,開發了ChIA-PET13(Chromatin Interaction Analysis by Paired-End Tag)技術。之後為了進一步降低成本、提升方法的靈敏度,研究人員開發了兩種策略,PLAC-seq(Proximity Ligation-Assisted ChIP-seq)14和HiChIP(以蛋白質為中心的染色質構象測定方法,protein-centric chromatin conformation assay)15。相比於ChIA-PET,PLAC-seq顯著提高了效率和準確性,而HiChIP則使具有染色質互作資訊的reads的產量提高了10倍以上,並使實驗所需細胞的數量要求減少了100倍以上。

另一種基於3C的改進方法是,捕獲開放區域的染色質間的相互作用。目前,許多核酸酶介導的檢測方法,包括DNase-seq16、MNase-seq17、ATAC-seq18和ATAC-see19,正被用於捕獲通常為開放染色質的基因調控元件。例如,DNase-seq利用DNase I在開放染色質區域的敏感性來從全基因組中富集這些染色質開放區域,從而獲得開放染色質區域的圖譜。MNase-seq被用於檢測核小體的佔有情況(occupancy)和染色質的可接近性(accessibility)。相應地,這些方法被各自改造為能夠捕獲開放染色質區域之間相互作用的技術。DNase Hi-C20可以用來表徵長非編碼RNA(lincRNA)的啟動子及它們之間的相互作用。Micro-C21方法則使用微球菌核酸酶(MNase)將染色質片段化,並在核小體水準的解析度下顯示染色質構象。

總而言之,自2002年3C技術被發明以來,它已經經歷了許多改進,包括3C(一對一位點),4C(一對多位點),5C(多對多位點,高通量),全基因組(Hi-C,Micro-C等)和靶向區域(ChIA-PET,Capture-C,Capture Hi-C)的分析技術。這些技術(如表1所示)極大地推動了基因組太空組織結構的研究。

染色質太空結構的新發展

利用基於3C的各種技術,研究人員能夠在不同細胞、不同組織上獲得染色質結構及相互作用的資訊。目前染色質不同層級的結構已經被揭示22,23,比如A / B區塊(A/B compartments),平均大小為1Mb的拓撲關聯結構域(TADs)24-26,以及結構域中位數大小為185kb的染色質環(loops)6(圖2)

圖2:基於3C技術的三維基因組的層次結構。層級結構包括染色質領域(CT),A / B區塊(compartment),拓撲關聯結構域(TAD)(~100kb-1000kb)。TAD由絕緣區域(Insulated Neighborhood,INs)(平均大小=~200kb)和染色質環(~10kb-500kb)組成。 增強子-啟動子相互作用環和活性染色質中心(ACH)被限制在IN內。

一般而言,常染色質和異染色質區域在同一個染色質領域(Chromosome Territory,CT)內往往是太空分離的,染色質被分成A區和B區兩個區塊(compartment)。A區通常由開放且富含基因的染色質區域組成,而B區則由關閉且缺乏基因的染色質區域組成27。相應地,A區和B區分別對應於更高和更低水準的基因表達。此外,針對高解析度Hi-C數據的分析還確定了TADs和染色質環(loops)結構。2014年,研究者們報導了多種人類細胞系的全基因組染色質環圖譜6。染色質環可以幫助形成增強子-啟動子之間的相互作用,並形成由多個增強子及其相互作用的啟動子組成的活性染色質中心(active chromatin hub)28。另外,ChIA-PET數據表明了結構蛋白(architectural proteins)在染色質結構形成和調控轉錄中的重要功能,這些蛋白包括CCCTC結合因子(CTCF)、黏連蛋白和RNA聚合酶II29。染色質太空結構的重要性不僅體現在它們對基因表達的影響上,還體現在這種結構在物種間的保守性上6,30。然而,基因組的結構和功能之間的關係尚未完全了解,需要使用細胞系、組織樣本和疾病模型進行進一步的三維基因組學研究。

癌症中三維基因組的異常結構

癌症是一類由不受控制的細胞生長和擴散引起的惡性疾病31,它們以基因組中的各種突變,如點突變、小的插入或缺失、染色質重排(Chromosome Rearrangement,CR)和拷貝數變異等為特徵。近年來,幾項針對癌症基因組的系統研究已經完成31。癌症基因組圖譜(TCGA)32描述了許多種癌症中點突變和結構變異的圖譜(landscape)33。一些基因能在不同的癌症類型中普遍地發生突變,比如TP53,KRAS和PIK3CA。這些基因與細胞增殖的主要通路有關,包括MAPK信號通路,PI(3)K信號通路等。許多研究也表明,表觀遺傳學在癌症中同樣發生了改變34。儘管在近幾十年中我們已經了解了很多關於基因組序列在許多癌症中是如何突變的的資訊,但是我們對三維基因組如何參與癌症的發生和發展還是知之甚少。

最近,研究人員已經實現了針對乳腺癌、攝護腺癌、神經膠質瘤和多發性骨髓瘤的癌症三維基因組研究35-40。他們發現在癌細胞中,不同結構尺度的三維基因組均會發生改變。Barutcu等人使用Hi-C分析了正常乳腺上皮細胞(MCF-10A)和乳腺癌細胞(MCF-7)35,發現癌細胞的三維基因組與正常細胞不同。相比正常細胞,乳腺癌細胞中約12%的基因組區域發生了A / B 區塊的轉換。更進一步,從A區到B區的轉換與基因表達的下調相關,相反方向的轉換則與基因表達的上調相關。在乳腺癌細胞中,小而富含基因的染色體(如16號到22號染色體)之間的相互作用頻率低於正常細胞。同時,染色體內相互作用也有不同:端粒和亞端粒區域在正常細胞中相互作用更頻繁。此後,Taberlay等人的工作表明在攝護腺癌中,三維基因組結構同樣是紊亂的40。他們發現攝護腺癌細胞比正常細胞具有更多的TADs和更小的TAD長度。他們還在具有拷貝數變異的區域裡發現了許多癌症特異性的TAD邊界。此外,染色質長程相互作用的變化與表觀遺傳修飾和基因表達的變化一致。Wu等人通過整合Hi-C,全基因組測序(WGS)和RNA-seq的數據來比較多發性骨髓瘤細胞和正常B細胞38,也報導了類似的發現。

雖然在乳腺癌和攝護腺癌中的研究已經給三維基因組在癌症中發生改變的假說提供了證據,但是這些研究使用的是正常和癌細胞的細胞系,而且並不能證明癌症與三維基因組改變之間存在因果關係。最近的一些研究將3C和CRISPR/Cas9技術相結合,提供了三維基因組紊亂可能導致癌症形成的實驗證據36,37。Hnisz等人將黏連蛋白ChIA-PET應用於T細胞急性淋巴細胞白血病(T-ALL)細胞,發現了絕緣區域(insulated neighborhood)37。他們發現基因組小片段的缺失突變會刪除絕緣區域間的邊界,從而使T-ALL原癌基因,比如TAL1和LMO2,表達失調(圖3A)。作者進一步使用CRISPR/Cas9刪除了這些原癌基因周圍的能與CTCF結合的染色質環錨定域,實現了這些原癌基因表達的激活37。在另一項關於神經膠質瘤的研究中,研究人員證實了三維基因組的重構與絕緣子(CTCF)功能失常及癌症相關36。膠質瘤中最主要的一個亞類涉及IDH基因突變,而這會產生CpG島甲基化的表型(G-CIMP)並導致CTCF結合位點的超甲基化。進一步,這又使得TAD邊界處CTCF發生異常結合,於是PDGFRA(一個神經膠質瘤原癌基因)與其增強子之間形成連續的相互作用,最終激活PDGFRA表達。

圖3:癌症中染色質三維結構的破壞導致基因表達異常。(A)通過破壞絕緣區域激活原癌基因。

基因拷貝數變異影響癌症三維基因組

基因突變的積累導致癌症的發生,這些突變包括點突變、小片段插入缺失(indel)和重複、缺失等體細胞基因拷貝數的改變(SCNA)。SCNA在許多癌症中很常見41,在某些特定的癌症中,它們是驅動突變事件(driving mutation events)42。之前的研究通常認為拷貝數變異主要影響編碼基因:如果基因發生重複,那麼該基因可能成為致癌基因;如果發生缺失,它將起到抑癌基因的作用。然而通過分析多種癌症的SCNAs,發現只有不到四分之一的常見SCNA與已知的致癌基因重疊43。一些研究報導了一種稱為增強子劫持(enhancer hijacking)的新機制44來解釋SCNA引起癌症的原因。SCNA使得增強子等調控元件重新排列,原先與增強子沒有互作的基因現在與增強子並列排布,因而產生了錯誤表達,最終導致癌症的發生。因此,SCNAs在癌症中可以通過兩種方式影響基因的表達:一種是劑量效應,另一種是增強子劫持。結合SCNAs和轉錄組分析,我們可以很容易地確定癌症中的基因劑量效應45,46,然而確定增強子劫持事件則較為困難,這是因為目前對三維基因組結構和不同癌症中增強子的位置的認識還比較少。

識別增強子劫持需要結合基因組的變化和三維基因組的資訊。Weischenfeld等人開發了一種稱為CESAM(Cis Expression Structural Alteration Mapping)47的新方法。CESAM整合了基因組序列,表觀遺傳學和三維基因組的資訊,並將它們與TADs重疊來預測SCNA斷點的功能。TADs在所有細胞類型中基本保守,且TADs48中的基因表達存在一定程度的相關性。CTCF等絕緣蛋白與TADs邊界結合,抑製不同TAD之間基因和調控元件的相互作用。然而,SCNA對TAD邊界的破壞可能會改變TAD結構,並導致新TAD的形成49。因此,在改變的TAD內部及其附近的基因和調控元件之間的相互作用可能會改變。根據這一的假設,CESAM通過將SCNA斷點映射到TADs來評估SCNA對局部基因組結構的影響(圖3B)。為了鑒定可能的增強子劫持事件,CESAM建立了一個線性回歸模型,將SCNA事件、TAD邊界和基因表達相關聯,以確定基因表達是否受到附近被SCNA改變的TAD的影響(圖3C)。在這一工作中,作者分析了來自TCGA資料庫的7416個癌症樣品,並預測了癌症樣品中由於SCNA誘導的TADs重組而發生表達上調的18個候選基因,包括IRS4和IGF2。這項工作是應用三維基因組資訊來鑒定致癌突變機制的一個很好的例子。

圖3:癌症中染色質三維結構的破壞導致基因表達異常。(B)缺失或重複破壞TAD邊界,從而導致受影響的TAD內或附近基因的異常表達。圖片展示了TCGA中腎上腺皮質癌樣品的TERT位點和CNV。

圖3:癌症中染色質三維結構的破壞導致基因表達異常。(C)具有不同類型的CNV的樣品和沒有CNV的樣品中的TERT表達水準。與沒有CNV的樣品(灰色,用於對照)相比,具有重複(紅色)的樣品和具有缺失(藍色)的樣品有更高的基因表達。

通過整合Hi-C,ChIA-PET,RNA-seq和CRISPR / Cas9等不同技術,可以從三維基因組的角度推斷癌症中許多非編碼基因突變和結構變異導致的後果。可以樂觀地預計,在針對其他癌症類型和臨床癌細胞樣本的研究中,將可以鑒定出更多的癌細胞中擾亂三維基因組結構的功能性基因變化。

與三維基因組異常結構相關的非腫瘤疾病

除了癌症,三維基因組對其他疾病也有很大影響,如先天性肢體畸形(congenital limb malformations)50、自身免疫性疾病(autoimmune diseases)51、烹調綜合征(cooks syndrome)和性反轉(sex reversal)49等。在這些疾病中,基因組中存在胚系突變(germline mutations),如染色質重排(Chromosomal rearrangements,CR)和單核苷酸變異(SNV)。CR事件(包括刪除,重複,插入,倒位,易位)是人類基因組中常見的結構變異,但其影響往往難以捉摸52。它們通常因破壞基因或蛋白質結構而導致疾病,但也可能通過改變染色質三維結構來影響基因表達40,50。最近的一項研究顯示,CR可以通過改變三維染色質結構引起多指畸形50。圖4展示了CR的致病模型。進一步,作者在小鼠模型中應用CRISPR / Cas9,證實了三維基因組的異常結構與發育性疾病的因果關係。

圖4:破壞TADs的染色質重排(CR)事件的致病模型。關於短指畸形、多指畸形和F-綜合征中WNT6,IHH,EPHA4和PAX3基因位點上CR事件的模型,重排破壞了含有肢體發育增強子的TAD的邊界。野生型染色質構象中有三個TADs結構,由邊界元件分隔。增強子(E)的增強活性僅限於位於TAD B內部的EPHA4基因。在具有染色質區域倒位的F-綜合征中,E被移出TAD B並被置於TAD A中的基因WNT6附近,TAD邊界現在位於E的右側。這導致E和WNT6之間發生相互作用,而E和EPHA4之間的正常相互作用被TAD邊界阻斷了。在具有複製事件(虛線矩形所示)的多指畸形中,新建立的TAD中的WNT6拷貝位於E旁邊,導致二者的相互作用和WNT6的異常表達。在具有缺失事件的短指畸形中,缺失刪去了邊界B2和TAD B和TAD C的間隔,因此EPHA4和PAX3都能夠與E相互作用,導致PAX3的異常表達。以類似的方式,IHH的表達在邊界B1缺失的多指畸形中異常。圖片改編自Li等56和Lupianez等50的工作。

全基因組關聯分析(GWASs)已成功用於鑒定與複雜疾病相關的遺傳變異53。但是,這些基因組非編碼區的變異影響疾病的機制大多還不明了。很多與疾病有關的SNPs位於染色質非編碼區域,並與增強子重疊54,55。這一現象提示,應當鑒定那些與疾病相關GWAS變異的染色質區域存在物理相互作用的基因。Capture Hi-C在這方面起到很大的作用,因為它可以幫助我們低成本並有效地識別這些啟動子-增強子的相互作用。例如,最近的一項研究使用這種方法,在四種自身免疫性疾病中鑒定了SNP與它們在B細胞和T細胞中潛在的功能性靶基因之間的相互作用51。Capture Hi-C證明,許多與疾病相關的SNPs常常與數百萬鹼基之外的基因相互作用,而並非附近的基因。一個具體的例子是,與類風濕性關節炎(RA)相關的SNP區域與位於640kb外的參與NF-κB途徑的基因AZI2的啟動子具有強相互作用。

為了整合併可視化疾病相關的CRs(Chromosomal rearrangements)與三維染色質結構之間的關係,Li等人開發了一個Web瀏覽器來查詢與疾病相關的CRs和感興趣的基因(3Disease Browser,http://3dgb.cbi.pku.edu.cn/disease/)56。 3Disease瀏覽器整合了Hi-C數據、注釋資訊(TADs, 基因等)、染色質三維模型和表觀遺傳資訊。其他三維基因組瀏覽器也被開發用於整合和可視化多種數據類型(參見表3關於三維基因組瀏覽器的比較)。

三維基因組技術在臨床多組學中的應用

現在有許多組學技術可以幫助我們更深入地了解疾病,比如RNA-seq和WGS。Hi-C等三維基因組技術由於能夠檢測疾病中的三維基因組結構變化並推斷其對基因表達的影響,是其他組學技術很好的補充。我們以臨床癌症研究為例說明三維基因組技術在臨床多組學中的應用(圖5)。從癌症患者獲得配對的正常和癌症組織樣品後,可以進行Hi-C和RNA-seq等組學實驗。由於癌症等許多疾病與拷貝數變異(CNV)和易位等染色質結構變異相關,在臨床研究中,我們通常使用WGS來檢測這種結構變化,但我們和其他研究者都發現,Hi-C數據也可以用來檢測並確認結構變異38,57。在最近的一項研究中發現57,與WGS測得的數據相比,Hi-C數據可以準確檢測到大規模CNV(> 1 Mb)和易位事件。因此,Hi-C數據不僅可以為我們提供三維結構資訊,還可以提供CNV和易位的資訊。通過綜合的多組學分析(圖5),我們期望能確定正常樣本和癌症樣本之間的顯著差異,結合不同組學水準上的變化,推斷這些遺傳改變產生的原因和功能後果。

圖5:3C技術應用於臨床研究的流程示意圖。首先從癌症患者中獲得配對的正常和癌症組織樣品用於多組學實驗,隨後利用Hi-C和RNA-seq等技術進行整合分析。

隨著技術的進步,三維基因組方法有望應用於臨床和治療研究。Almassalha等人使用藥物來改變染色質組裝密度,防止了癌細胞的進一步惡化,並提高了抗癌治療的效果58。這項研究表明,修改染色質和基因組的三維結構也可以達到治療效果。當我們能更好地理解染色質結構和疾病之間的關係時,探索以三維基因組編輯來達到治療目的的方法是令人激動並充滿前途的59,60

單細胞Hi-C技術及未來三維基因組技術的發展

在臨床研究中應用三維基因組技術需要面臨幾個挑戰。比如,為了實現原位的Hi-C需要數百萬個細胞,然而,臨床樣本中所能提供的的細胞數要小得多。關於是否能夠利用較少的臨床樣品細胞量來檢測染色質相互作用的問題,目前並沒有充分的研究。除此之外,還有一些與傳統基因組研究中類似的挑戰需要在處理臨床樣品時克服,例如腫瘤和正常細胞需要被足夠乾淨地分離,以及不感興趣的細胞類型需要被去除。

另一方面, Hi-C等三維基因組技術常常受到低解析度和偏差(bias)的影響,這可能是由不均勻片段化、PCR擴增偏差、噪音連接(noisy ligation)等因素引起的61。 為了解決這些問題,研究人員們開發了一系列基於Hi-C技術的改進方法。 在橋式連接Hi-C(BL-Hi-C)中,生物素標記的20bp橋式連接物(bridge linker)在DNA被片段化後被加入到溶液中,通過兩步連接反應來減少連接噪音62。 線性PCR方法可以用來減少PCR擴增的偏差63。通過提高Hi-C技術的解析度並降低噪音背景,研究人員們將可以研究各種疾病過程中三維基因組結構的細微變化。

單細胞Hi-C(scHi-C)7-9是Hi-C技術發展的另一個重要方向。一方面,從胚胎髮育或某些罕見疾病中能夠獲得的細胞數量非常有限。另一方面,癌細胞的三維基因組結構可能非常不均一。發展scHi-C技術不僅可以驗證大量Hi-C(bulk Hi-C)的結果,還可以揭示癌症等疾病背後的分子異質性,從而幫助研究癌症等疾病。scHi-C所面臨的技術挑戰是,如何在實驗操作中減少DNA損失,同時降低噪音背景。想要在這兩個目標之間達到平衡很困難,因為在過濾噪音背景的同時也可能會失去真正的相互作用片段。考慮到實驗工作流程中的每一步都可能導致DNA損失,減少損失的一個有效方法便是簡化這些流程。最早的scHi-C技術是在2013年建立的7。在當時的方法中,Nagano等人首先用限制酶(Bgl II或Dpn II)切割DNA,然後用生物素在每個核得標記片段。在臨近片段被連接後,每一個細胞核都被人工挑選出來,再通過富集生物素來捕獲片段。片段經過Alu I切割後使用接頭連接PCR(adapter ligation PCR)進行擴增,最後測序7。2017年,Nagano等人又將人工分選細胞核改為流式細胞術分選,並使用Tn5轉座酶建立標籤,取代了原方法最後的Alu I酶切,末端修復和接頭連接等步驟8。這些進展進一步簡化了scHi-C的實驗工作流程,大大提高了測得序列的DNA reads數【表4。Flyamer等人開發了另一種scHi-C技術64。他們沒有用生物素標記DNA片段,而是在DNA連接和解除交聯(reverse cross-linking)後擴增全基因組64,之後使用計算的方法過濾得到有效reads。表4總結了各種scHi-C方案。總體而言,用現有的scHi-C技術獲得的有效reads數尚不足以繪製可靠的單個細胞的染色質相互作用圖譜。我們期待未來更完善的scHi-C技術能提供足夠數量的相互作用reads和更小的噪音。

表4:單細胞Hi-C技術概覽

儘管Hi-C可以揭示全基因組染色質的相互作用,但圖譜的解析度取決於測序的深度,一份全基因組、高解析度的相互作用圖譜的測序成本可能是巨大的。對於一些疾病,例如前文涉及的多指畸形,來自包含潛在致病基因的局部染色質區域的互作圖譜就能提供足夠的資訊。在這種情況下,靶向染色質捕獲(Targeted Chromosome Capture,T2C)10和Capture-C技術11可以取代Hi-C。這兩種技術能夠捕獲染色質特定區域上的相互作用,並且使研究人員能夠以可接受的成本獲得具有足夠解析度的互作圖譜。

受限於二代測序的特點,高度重複的基因組區域不能準確地比對在參考基因組上,但這些高度重複的區域可能具有重要的功能。比如,端粒就在癌症和衰老中發揮重要作用65。目前我們對高重複區的基因組太空結構幾乎沒有了解。隨著第三代測序技術的不斷發展,重複區域將可以準確測序66。結合第三代測序與染色質捕獲技術的技術很可能即將被開發出來,以更好地揭示高度重複區域的染色質構象結構。

總之,三維基因組技術極大地促進了對發育相關疾病和複雜疾病的研究。諸如癌症等複雜疾病是由基因與其調控元件之間複雜相互作用的改變而引起的67,68。 研究染色質構象在疾病中的變化可以幫助理解這些相互作用,並為開發新的生物標記、設計靶向治療位點提供線索。在不遠的將來,單細胞、高通量、多組學的三維基因組分析方法將會實現,我們將能夠獲得更深入的資訊來了解在正常和患病條件下基因組的基態和動態結構。

參考文獻

1 Job Dekker, Karsten Rippe, Martijn Dekker & Kleckner, N. Capturing Chromosome Conformation. Science, doi:DOI:10.1126/science.1067799 (2002).

2 Simonis, M. et al. Nuclear organization of active and inactive chromatin domains uncovered by chromosome conformation capture-on-chip (4C). Nat Genet38, 1348-1354, doi:10.1038/ng1896 (2006).

3 Van de Werken, H. J. et al. Robust 4C-seq data analysis to screen for regulatory DNA interactions. Nat Methods9, 969-972, doi:10.1038/nmeth.2173 (2012).

4 Dostie, J. et al. Chromosome Conformation Capture Carbon Copy (5C): a massively parallel solution for mapping interactions between genomic elements. Genome research16, 1299-1309, doi:10.1101/gr.5571506 (2006).

5 Lieberman-Aiden, E. et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science326, 289-293, doi:10.1126/science.1181369 (2009).

6 Rao, S. S. et al. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell159, 1665-1680, doi:10.1016/j.cell.2014.11.021 (2014).

7 Nagano, T. et al. Single-cell Hi-C reveals cell-to-cell variability in chromosome structure. Nature502, 59-64, doi:10.1038/nature12593 (2013).

8 Nagano, T. et al. Cell-cycle dynamics of chromosomal organization at single-cell resolution. Nature547, 61-67, doi:10.1038/nature23001 (2017).

9 Ramani, V. et al. Massively multiplex single-cell Hi-C. Nature methods, doi:10.1038/nmeth.4155 (2017).

10 Kolovos, P. et al. Targeted Chromatin Capture (T2C): a novel high resolution high throughput method to detect genomic interactions and regulatory elements. Epigenetics & chromatin7, 10, doi:10.1186/1756-8935-7-10 (2014).

11 Hughes, J. R. et al. Analysis of hundreds of cis-regulatory landscapes at high resolution in a single, high-throughput experiment. Nat Genet46, 205-212, doi:10.1038/ng.2871 (2014).

12 Borbala Mifsud, Filipe Tavares-Cadete & Young, A. N. Mapping long-range promoter contacts in human cells with high-resolution capture Hi-C. Nat Genet, doi:0.1038/ng.3286 (2015).

13 Fullwood, M. J. et al. An oestrogen-receptor-alpha-bound human chromatin interactome. Nature462, 58-64, doi:10.1038/nature08497 (2009).

14 Fang, R. et al. Mapping of long-range chromatin interactions by proximity ligation-assisted ChIP-seq. Cell research26, 1345-1348, doi:10.1038/cr.2016.137 (2016).

15 Mumbach, M. R. et al. HiChIP: efficient and sensitive analysis of protein-directed genome architecture. Nat Methods, doi:10.1038/nmeth.3999 (2016).

16 Song, L. & Crawford, G. E. DNase-seq: a high-resolution technique for mapping active gene regulatory elements across the genome from mammalian cells. Cold Spring Harbor protocols, pdb prot5384, doi:10.1101/pdb.prot5384 (2010).

17 Mieczkowski, J. et al. MNase titration reveals differences between nucleosome occupancy and chromatin accessibility. Nature communications7, 11485, doi:10.1038/ncomms11485 (2016).

18 Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y. & Greenleaf, W. J. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods10, 1213-1218, doi:10.1038/nmeth.2688 (2013).

19 Chen, X. et al. ATAC-see reveals the accessible genome by transposase-mediated imaging and sequencing. Nature methods13, 1013-1020, doi:10.1038/nmeth.4031 (2016).

20 Ma, W. et al. Fine-scale chromatin interaction maps reveal the cis-regulatory landscape of human lincRNA genes. Nat Methods12, 71-78, doi:10.1038/nmeth.3205 (2015).

21 Hsieh, T. H. et al. Mapping Nucleosome Resolution Chromosome Folding in Yeast by Micro-C. Cell162, 108-119, doi:10.1016/j.cell.2015.05.048 (2015).

22 Gibcus, J. H. & Dekker, J. The hierarchy of the 3D genome. Molecular cell49, 773-782, doi:10.1016/j.molcel.2013.02.011 (2013).

23 Bonev, B. & Cavalli, G. Organization and function of the 3D genome. Nat Rev Genet17, 661-678, doi:10.1038/nrg.2016.112 (2016).

24 Dixon, J. R. et al. Topological domains in mammalian genomes identified by analysis of chromatin interactions. Nature485, 376-380, doi:10.1038/nature11082 (2012).

25 Crane, E. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature523, 240-244, doi:10.1038/nature14450 (2015).

26 Nora, E. P. et al. Spatial partitioning of the regulatory landscape of the X-inactivation centre. Nature485, 381-385, doi:10.1038/nature11049 (2012).

27 Naumova, N. & Dekker, J. Integrating one-dimensional and three-dimensional maps of genomes. J Cell Sci123, 1979-1988, doi:10.1242/jcs.051631 (2010).

28 Ji, X. et al. 3D Chromosome Regulatory Landscape of Human Pluripotent Cells. Cell stem cell18, 262-275, doi:10.1016/j.stem.2015.11.007 (2016).

29 Tang, Z. et al. CTCF-Mediated Human 3D Genome Architecture Reveals Chromatin Topology for Transcription. Cell163, 1611-1627, doi:10.1016/j.cell.2015.11.024 (2015).

30 Rudan, M. et al. Comparative Hi-C Reveals that CTCF Underlies Evolution of Chromosomal Domain Architecture. Cell reports10, 1297-1309, doi:10.1016/j.celrep.2015.02.004 (2015).

31 Garraway, L. A. & Lander, E. S. Lessons from the cancer genome. Cell153, 17-37, doi:10.1016/j.cell.2013.03.002 (2013).

32 Tomczak, K., Czerwinska, P. & Wiznerowicz, M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge. Contemp Oncol (Pozn)19, A68-77, doi:10.5114/wo.2014.47136 (2015).

33 Kandoth, C. et al. Mutational landscape and significance across 12 major cancer types. Nature502, 333-339, doi:10.1038/nature12634 (2013).

34 Kanwal, R., Gupta, K. & Gupta, S. Cancer epigenetics: an introduction. Methods in molecular biology1238, 3-25, doi:10.1007/978-1-4939-1804-1_1 (2015).

35 Barutcu, A. R. et al. Chromatin interaction analysis reveals changes in small chromosome and telomere clustering between epithelial and breast cancer cells. Genome biology16, 214, doi:10.1186/s13059-015-0768-0 (2015).

36 Flavahan, W. A. et al. Insulator dysfunction and oncogene activation in IDH mutant gliomas. Nature529, 110-114, doi:10.1038/nature16490 (2016).

37 Hnisz, D. et al. Activation of proto-oncogenes by disruption of chromosome neighborhoods. Science351, 1454-1458, doi:10.1126/science.aad9024 (2016).

38 Wu, P. et al. 3D genome of multiple myeloma reveals spatial genome disorganization associated with copy number variations. Nat Commun8, 1937, doi:10.1038/s41467-017-01793-w (2017).

39 Seaman, L. et al.Nucleome Analysis Reveals Structure-Function Relationships for Colon Cancer. Molecular cancer research15, 821-830, doi:10.1158/1541-7786.MCR-16-0374 (2017).

40 Taberlay, P. C. et al. Three-dimensional disorganisation of the cancer genome occurs coincident with long range genetic and epigenetic alterations. Genome research, doi:10.1101/gr.201517.115 (2016).

41 Beroukhim, R. et al. The landscape of somatic copy-number alteration across human cancers. Nature463, 899-905, doi:10.1038/nature08822 (2010).

42 Ciriello, G. et al. Emerging landscape of oncogenic signatures across human cancers. Nature genetics45, 1127-1133, doi:10.1038/ng.2762 (2013).

43 Zack, T. I. et al. Pan-cancer patterns of somatic copy number alteration. Nature genetics45, 1134-1140, doi:10.1038/ng.2760 (2013).

44 Northcott, P. A. et al. Enhancer hijacking activates GFI1 family oncogenes in medulloblastoma. Nature511, 428-434, doi:10.1038/nature13379 (2014).

45 Huang, N., Shah, P. K. & Li, C. Lessons from a decade of integrating cancer copy number alterations with gene expression profiles. Briefings in bioinformatics13, 305-316, doi:10.1093/bib/bbr056 (2012).

46 Samur, M. K. et al. The shaping and functional consequences of the dosage effect landscape in multiple myeloma. BMC genomics14, 672, doi:10.1186/1471-2164-14-672 (2013).

47 Weischenfeldt, J. et al. Pan-cancer analysis of somatic copy-number alterations implicates IRS4 and IGF2 in enhancer hijacking. Nature genetics49, 65-74, doi:10.1038/ng.3722 (2017).

48 Ali, T., Renkawitz, R. & Bartkuhn, M. Insulators and domains of gene expression. Current opinion in genetics & development37, 17-26, doi:10.1016/j.gde.2015.11.009 (2016).

49 Franke, M. et al. Formation of new chromatin domains determines pathogenicity of genomic duplications. Nature538, 265-269, doi:10.1038/nature19800 (2016).

50 Lupianez, D. G. et al. Disruptions of topological chromatin domains cause pathogenic rewiring of gene-enhancer interactions. Cell161, 1012-1025, doi:10.1016/j.cell.2015.04.004 (2015).

51 Martin, P. et al. Capture Hi-C reveals novel candidate genes and complex long-range interactions with related autoimmune risk loci. Nature communications6, 10069, doi:10.1038/ncomms10069 (2015).

52 Shrivastav, M., De Haro, L. P. & Nickoloff, J. A. Regulation of DNA double-strand break repair pathway choice. Cell research18, 134-147, doi:10.1038/cr.2007.111 (2008).

53 Li, Z. et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature genetics49, 1576-1583, doi:10.1038/ng.3973 (2017).

54 Fairfax, B. P. et al. Innate immune activity conditions the effect of regulatory variants upon monocyte gene expression. Science343, 1246949, doi:10.1126/science.1246949 (2014).

55 Farh, K. K. et al. Genetic and epigenetic fine mapping of causal autoimmune disease variants. Nature518, 337-343, doi:10.1038/nature13835 (2015).

56 Li, R., Liu, Y., Li, T. & Li, C. 3Disease Browser: A Web server for integrating 3D genome and disease-associated chromosome rearrangement data. Scientific reports6, 34651, doi:10.1038/srep34651 (2016).

57 Chakraborty, A. & Ay, F. Identification of copy number variations and translocations in cancer cells from Hi-C data. Bioinformatics, doi:10.1093/bioinformatics/btx664 (2017).

58 Almassalha, L. M. et al. Macrogenomic engineering via modulation of the scaling of chromatin packing density. Nat Biomed Eng1, 902-913, doi:10.1038/s41551-017-0153-2 (2017).

59 Sachdeva, M. et al. CRISPR/Cas9: molecular tool for gene therapy to target genome and epigenome in the treatment of lung cancer. Cancer Gene Ther22, 509-517, doi:10.1038/cgt.2015.54 (2015).

60 Huang, H. & Wu, Q. CRISPR Double Cutting through the Labyrinthine Architecture of 3D Genomes. Journal of genetics and genomics43, 273-288, doi:10.1016/j.jgg.2016.03.006 (2016).

61 Yaffe, E. & Tanay, A. Probabilistic modeling of Hi-C contact maps eliminates systematic biases to characterize global chromosomal architecture. Nature genetics43, 1059-1065, doi:10.1038/ng.947 (2011).

62 Liang, Z. et al. BL-Hi-C is an efficient and sensitive approach for capturing structural and regulatory chromatin interactions. Nature communications8, 1622, doi:10.1038/s41467-017-01754-3 (2017).

63 Chen, C. et al. Single-cell whole-genome analyses by Linear Amplification via Transposon Insertion (LIANTI). Science356, 189-194, doi:10.1126/science.aak9787 (2017).

64 Flyamer, I. M. et al. Single-nucleus Hi-C reveals unique chromatin reorganization at oocyte-to-zygote transition. Nature544, 110-114, doi:10.1038/nature21711 (2017).

65 Gilley, D., Tanaka, H. & Herbert, B. S. Telomere dysfunction in aging and cancer. The international journal of biochemistry & cell biology37, 1000-1013, doi:10.1016/j.biocel.2004.09.003 (2005).

66 Chin, C. S. et al. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nature methods10, 563-569, doi:10.1038/nmeth.2474 (2013).

67 Bailey, J. N., Pericak-Vance, M. A. & Haines, J. L. The impact of the human genome project on complex disease. Genes5, 518-535, doi:10.3390/genes5030518 (2014).

68 Forbes, S. A. et al. COSMIC: exploring the world"s knowledge of somatic mutations in human cancer. Nucleic acids research43, D805-811, doi:10.1093/nar/gku1075 (2015).

69 Stevens, T. J. et al. 3D structures of individual mammalian genomes studied by single-cell Hi-C. Nature544, 59-64, doi:10.1038/nature21429 (2017).

70 Serra, F. et al. Automatic analysis and 3D-modelling of Hi-C data using TADbit reveals structural features of the fly chromatin colors. PLoS computational biology13, e1005665, doi:10.1371/journal.pcbi.1005665 (2017).

71 Durand, N. C. et al. Juicebox Provides a Visualization System for Hi-C Contact Maps with Unlimited Zoom. Cell Syst3, 99-101, doi:10.1016/j.cels.2015.07.012 (2016).

72 Wingett, S. et al. HiCUP: pipeline for mapping and processing Hi-C data. F1000Research4, 1310, doi:10.12688/f1000research.7334.1 (2015).

73 Servant, N. et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome biology16, 259, doi:10.1186/s13059-015-0831-x (2015).

74 Li, W., Gong, K., Li, Q., Alber, F. & Zhou, X. J. Hi-Corrector: a fast, scalable and memory-efficient package for normalizing large-scale Hi-C data. Bioinformatics31, 960-962, doi:10.1093/bioinformatics/btu747 (2015).

75 Hu, M. et al. HiCNorm: removing biases in Hi-C data via Poisson regression. Bioinformatics28, 3131-3133, doi:10.1093/bioinformatics/bts570 (2012).

76 Paulsen, J. et al. HiBrowse: multi-purpose statistical analysis of genome-wide chromatin 3D organization. Bioinformatics30, 1620-1622, doi:10.1093/bioinformatics/btu082 (2014).

77 Sato, T. & Suyama, M. ChromContact: A web tool for analyzing spatial contact of chromosomes from Hi-C data. BMC genomics16, 1060, doi:10.1186/s12864-015-2282-x (2015).

78 Xu, Z. et al. HiView: an integrative genome browser to leverage Hi-C results for the interpretation of GWAS variants. BMC research notes9, 159, doi:10.1186/s13104-016-1947-0 (2016).

79 Zhou, X. et al. Exploring long-range genome interactions using the WashU Epigenome Browser. Nature methods10, 375-376, doi:10.1038/nmeth.2440 (2013).

80 Teng, L., He, B., Wang, J. & Tan, K. 4DGenome: a comprehensive database of chromatin interactions. Bioinformatics31, 2560-2564, doi:10.1093/bioinformatics/btv158 (2015).

81 Sandve, G. K. et al. The Genomic HyperBrowser: inferential genomics at the sequence level. Genome biology11, R121, doi:10.1186/gb-2010-11-12-r121 (2010).

82 Nowotny, J. et al. GMOL: An Interactive Tool for 3D Genome Structure Visualization. Scientific reports6, 20802, doi:10.1038/srep20802 (2016).

83 Lewis, T. E. et al. Genome3D: exploiting structure to help users understand their sequences. Nucleic acids research43, D382-386, doi:10.1093/nar/gku973 (2015).

84 Nagano, T. et al. Single-cell Hi-C for genome-wide detection of chromatin interactions that occur simultaneously in a single cell. Nature protocols10, 1986-2003, doi:10.1038/nprot.2015.127 (2015).

原文鏈接:

https://link.springer.com/article/10.1007/s10565-018-9430-4?from=timeline&isappinstalled=0

北京大學生命科學學院李程研究組

李程簡介

李程研究員2001年畢業於美國加州大學洛杉磯分校統計系,獲得統計學博士學位。2001至2013年在哈佛大學生物統計系、Dana-Farber Cancer Institute 作為博士後、助理教授、副教授從事研究與教學工作。研究組開發的dChip、ComBat系列數據分析演算法和軟體廣泛應用於基因表達和SNP生物晶元的數據分析和可視化。在Nature,PNAS,Blood, Leukemia, Cancer Research 等刊物上發表論文90餘篇,一共被引用20,000次以上。2013年全職加入北京大學生命科學學院生物資訊中心,並著力於三維基因組學實驗技術、分析方法在癌症和乾細胞等領域的應用。最近主要成果包括:富集開放染色質間相互作用的新方法(Genome Biology, 2018.5, PMID: 29690904), 癌症基因組三維結構和拷貝數變異關係(Nature Communications, 2017.12, PMID: 29203764), 基於三維基因組數據的動態染色質可接近性模型(Nucleic Acids Research, 2017.2, PMID: 28180283), 預測和可視化異常染色體三維結構和致病基因關係的資料庫網站(Scientific Reports, 2016.10, PMID: 27734896)等。

戳原文,進入李程研究組主頁

TAG: |

獲得更多的PTT最新消息
按讚加入粉絲團