正在閱讀:

完整基因組的問世,破解了關于生命的“天書”

掃一掃下載界面新聞APP

完整基因組的問世,破解了關于生命的“天書”

人類基因組完整序列的發(fā)布帶來的顛覆,不比工業(yè)革命或互聯(lián)網的誕生來得更小。

文|陳根

人類的基因組常被比作是一本書寫生命的“天書”——人類憑借A、T、C、G四種堿基,卻配對出了高達60億的可能,堿基的無窮組合也蘊含著人類進化、生老病死的奧秘,而DNA則分布在23對染色體中。2001年,人類啟動了解碼人類基因組的計劃,成為醫(yī)學和遺傳學的里程碑。

不過,在當時,第一個參考基因組并不完整——大約8%的DNA序列無法測序。主要包括染色體末端和著絲粒(染色體的中心節(jié)點)中的遺傳物質部分。這些部分中的DNA序列由許多幾乎相同的副本和重復組成。

終于,20年后,科學家們補齊了人類基因組圖譜上缺失的部分,2022年4月1日,人類基因組的完整序列首次在Science上重磅發(fā)布,完成了整個人類基因組的測序解碼,由此發(fā)現(xiàn)了多種頑癥和生命規(guī)律的根源——基因。現(xiàn)在,立足于人類基因組的完整序列,關于人類進化、生老病死的研究也走向了新的序幕。

長鏈DNA測序技術是關鍵

人類基因組就是一個人所有的DNA,含有約31.6億個DNA堿基對,包括大約2-3萬個基因。這些基因中除了編碼蛋白質的兩萬多個基因之外,還包含了數(shù)千個RNA基因。如果從單個細胞中取出并拉伸成鏈,長度能夠達到2米。

這些基因分片段組合,通常被分成23對,稱為染色體,其中包括22對常染色體,1對性染色體?;虿粌H可以通過復制把遺傳信息傳遞給下一代,還可以使遺傳信息得到表達。不同人種之間頭發(fā)、膚色、眼睛、鼻子等不同,都是基因之間的差異導致的。

每個物種都有自己的基因組,負責指示細胞什么時候、通過什么方式構建這個物種的個體生命藍圖。對于人類來說,完整的基因組圖譜將有助于更好理解人作為一個有機體是如何形成的,一個有機體和其他人、其他物種之間又有哪些不同,為什么會有這些不同。

2003年,人類基因組計劃基本完成,不過,受到當時技術的限制,最后得出的圖譜并不算完美——“人類基因組計劃”的科學家們從染色體DNA中獲得了大量的短序列,這些短序列與相鄰區(qū)域重疊,構成更大的連續(xù)序列——重疊群。

理想情況下,每條染色體將呈現(xiàn)單個重疊群,但首次草圖卻包含了1246個這樣的片段。重復的片段包括著絲粒和核糖體DNA等,無法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。對于此,科學家們只能持續(xù)地完善組裝,手動檢查,并使用測序分析來識別有錯誤和信息缺口的片段。

人類基因組圖譜的最新版本于2013年發(fā)布,被稱為GRCh38。從那時起,它就被反復修補。然而,一直以來,它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區(qū)域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏于大量重復基因拷貝的長序列中。

以著絲粒為例,攜帶基因的兩條染色體臂通過著絲粒相連。著絲粒由數(shù)千個幾乎一樣的α衛(wèi)星序列組成——171bp的α衛(wèi)星重復單位需要被正確排布以確保染色體穩(wěn)定和細胞分裂。然而,在人類基因組草圖發(fā)布20年后,著絲粒和其他有難度的DNA序列仍然是染色體圖譜中難以填補的缺口。

這些難題持續(xù)阻礙著基因組的組裝——如果測序技術沒有發(fā)生顛覆性改變,人類基因組測序將在很長時間內停滯不前。

好在不間斷讀取長鏈DNA的測序技術終于問世。其中,一種技術是加州生物技術公司太平洋生物科學使用的成像系統(tǒng)來直接讀取數(shù)十萬甚至數(shù)百萬條平行DNA鏈,每條鏈包含數(shù)千個堿基。另一種技術則是英國公司的牛津納米孔技術,它將DNA鏈穿過微小的蛋白孔或納米孔,測量核苷酸穿過孔道時電流的細微變化,進而讀取數(shù)萬至數(shù)十萬個堿基。

在長鏈DNA的測序技術下,跨越20年的人類基因組謎題終于大白。

從填補缺口到完整發(fā)布

2022年4月1日,第一個完整的、無間隙的人類基因組序列發(fā)布,徹底填補了多年前的測序空白。人類基因組完整測序離不開T2T聯(lián)盟的努力。T2T聯(lián)盟成立于2019年初,旨在為每個人類染色體提供高質量的從端粒到端粒的組裝。

該研究針對剩余8%的基因組,提供了人類基因組的完整30.55億堿基對序列T2T-CHM13,包括了除Y之外的所有染色體的無間隙裝配,糾正了之前的參考序列,并介紹了近2億個堿基對序列,包含1956個基因預測,其中,99個預測為蛋白質編碼。完成的區(qū)域包括所有著絲粒衛(wèi)星陣列、最近的節(jié)段重復和所有五個近端著絲粒染色體的短臂。

與過去20年的任何基因組參考版本相比,T2T-CHM13組裝增加了五個完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復雜的區(qū)域。比如染色體末端的端粒和在細胞分裂過程中協(xié)調同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測到的片段重復(在基因組中重復的長段DNA),這些重復片段可在進化和疾病中發(fā)揮重要作用。

具體來看,CHM13是一種腫瘤衍生細胞系,其基因組包含兩套相同的染色體。這就避免了二倍體基因組的復雜性,因為二倍體基因組具有來自父母雙方的不同染色體拷貝。在2020年底,T2T聯(lián)盟的研究人員公布了兩個染色體的完整組裝,即X染色體和8號染色體。

研究人員使用牛津納米孔技術,對兩條染色體的片段進行測序,這兩條染色體的長度通常超過7萬個堿基,其中一條讀長甚至超過100萬個堿基。雖然很成功,但是對X染色體和8號染色體的測序過程卻費力且艱苦。

除了長鏈DNA的測序技術外,完成和檢查基因組組裝還需要專用的軟件,這套工具由Phillippy和加州大學圣地亞哥分校計算生物學家PavelPevzner等研究人員共同開發(fā)。研究人員表示,這是一個非常謹慎的過程,只有兩個長度超過7000個堿基的序列,基本上100%相同,他們才會把它們粘合在一起,因為一旦你、在組裝中引入一個錯誤,就很難修復它。

在這個過程中,PacBio儀器支持環(huán)形一致測序(CCS),在此過程中單個DNA鏈被轉換成可以反復讀取的閉環(huán)。通過比較這些重復序列,研究員可以消除隨機錯誤,獲取高度準確的結果。早期版本的CCS最多容納幾千個堿基,在基因組組裝中用途有限。但2019年,PacBio改進了這一過程,后續(xù)的高保真技術如今產生超過2萬個堿基的一致序列,準確率超過99%。

其次,研究人員還利用了作圖技術,比如加州生物科技公司BionanoGenomics開發(fā)的一種技術,使得測量一條染色體上不同DNA序列之間的距離成為可能。當然,對X染色體的初步研究也離不開之前對該染色體著絲粒的了解,此著絲粒的結構已經被充分研究。

T2T的方法也使得龐大復雜的基因測序工作相對縮短,而T2T-CHM13的問世則為科學家提供了一種有效的方式,來訪問和可視化與基因組和基因組其他元素相關的大量信息。如今,有了完整的基因組,科學家就能進一步研究該片段在人類種群中的多樣性以及導致疾病的精細遺傳點。

這也是本次測序工作最大的意義所在——通過長讀測序技術解決復雜區(qū)域的序列結構,為后續(xù)的精準醫(yī)療和分子診斷提供更為精細的索引。

基因組學新時代

完整基因組序列的公布對于揭示人類進化、生老病死的意義是巨大的。實際上,4月1日,與完整的的人類基因組序列的論文同時發(fā)布的,還有5篇相關論文。其他5篇論文就分別從5個方面探討了完整基因組在人類遺傳學上的重要性。

5篇論文中的第一篇主要研究segmental duplication等復雜區(qū)域;第二篇論文重點介紹了中心粒的結構和其表觀圖譜;第三篇論文討論的是該完整基因組如何提高對人類遺傳變異多樣性的分析;第四篇論文說明了人類基因組重復序列中的基因表達和其表觀圖譜;第五篇論文則介紹了該完整基因組的表觀圖譜。

要知道,過去未被揭示的8%的基因組代表了醫(yī)學和基因組知識的巨大差距。差距就在人類染色體的兩個關鍵區(qū)域:端粒和著絲粒。

端粒是位于染色體末端的小帽。這個部分隨著人年齡的增長而縮短。已經有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長的人更早死亡,通過延長端粒來減緩衰老速度是一種可能的方法。

著絲粒位于染色體中間部分。這個區(qū)域在細胞分裂過程中扮演了很重要的角色,因為蛋白質就是在這個狹窄部位附著并分裂 DNA,兩個新細胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問題或者錯誤。

并且,對于癌癥來說,追溯基因突變是了解癌細胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個突變。如果能夠在人體的乳腺、肺部、神經系統(tǒng)等十幾個組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見的突變過程與人群中發(fā)生頻率較低的罕見突變過程區(qū)分開來。

而基因組測序能夠讓科學家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測序(WGS)方法,可全面探索所有類型的癌癥基因改變。

可以說 ,完整的基因測序開創(chuàng)了基因組學的新時代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對人類本身的了解還將邁上新的臺階,很多疾病的病因將被揭開,治療方案就能“對因下藥”,生活起居、飲食習慣也有可能根據(jù)基因情況進行調整。

利用基因,人們可以改良果蔬品種,提高農作物的品質,更多的轉基因植物和動物、食品將問世,人類可能在新世紀里培育出超級物作。通過控制人體的生化特性,人類將能夠恢復或修復人體細胞和器官的功能,甚至改變人類的進化過程。而這種改變帶來的顛覆,不比工業(yè)革命或互聯(lián)網的誕生來得更小。

對于此,BBC《科技聚焦》雜志說,在大部分人還沒有意識到的時候,人類已經“處于一場深刻的醫(yī)學和技術革命的山腳下,這場革命不僅帶來了新療法和治療方法的前景,還帶來了關于倫理、平等和健康正義的巨大問題”。

鑒于我們在當前環(huán)境中對某些基因的功能所知甚少,有專家指出,在進行有可能影響千年的基因改造時,必須格外謹慎。畢竟,當前,人類暫時無法知道一個基因變異會對人類細胞造成的所有變化,也很難預見未來千百年后的環(huán)境下基因編輯對人類所起的作用。要判斷一個基因編輯是否合乎倫理,我們首先需要了解這個編輯的基因會帶領人類進入一個什么樣的未來世界。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

完整基因組的問世,破解了關于生命的“天書”

人類基因組完整序列的發(fā)布帶來的顛覆,不比工業(yè)革命或互聯(lián)網的誕生來得更小。

文|陳根

人類的基因組常被比作是一本書寫生命的“天書”——人類憑借A、T、C、G四種堿基,卻配對出了高達60億的可能,堿基的無窮組合也蘊含著人類進化、生老病死的奧秘,而DNA則分布在23對染色體中。2001年,人類啟動了解碼人類基因組的計劃,成為醫(yī)學和遺傳學的里程碑。

不過,在當時,第一個參考基因組并不完整——大約8%的DNA序列無法測序。主要包括染色體末端和著絲粒(染色體的中心節(jié)點)中的遺傳物質部分。這些部分中的DNA序列由許多幾乎相同的副本和重復組成。

終于,20年后,科學家們補齊了人類基因組圖譜上缺失的部分,2022年4月1日,人類基因組的完整序列首次在Science上重磅發(fā)布,完成了整個人類基因組的測序解碼,由此發(fā)現(xiàn)了多種頑癥和生命規(guī)律的根源——基因?,F(xiàn)在,立足于人類基因組的完整序列,關于人類進化、生老病死的研究也走向了新的序幕。

長鏈DNA測序技術是關鍵

人類基因組就是一個人所有的DNA,含有約31.6億個DNA堿基對,包括大約2-3萬個基因。這些基因中除了編碼蛋白質的兩萬多個基因之外,還包含了數(shù)千個RNA基因。如果從單個細胞中取出并拉伸成鏈,長度能夠達到2米。

這些基因分片段組合,通常被分成23對,稱為染色體,其中包括22對常染色體,1對性染色體?;虿粌H可以通過復制把遺傳信息傳遞給下一代,還可以使遺傳信息得到表達。不同人種之間頭發(fā)、膚色、眼睛、鼻子等不同,都是基因之間的差異導致的。

每個物種都有自己的基因組,負責指示細胞什么時候、通過什么方式構建這個物種的個體生命藍圖。對于人類來說,完整的基因組圖譜將有助于更好理解人作為一個有機體是如何形成的,一個有機體和其他人、其他物種之間又有哪些不同,為什么會有這些不同。

2003年,人類基因組計劃基本完成,不過,受到當時技術的限制,最后得出的圖譜并不算完美——“人類基因組計劃”的科學家們從染色體DNA中獲得了大量的短序列,這些短序列與相鄰區(qū)域重疊,構成更大的連續(xù)序列——重疊群。

理想情況下,每條染色體將呈現(xiàn)單個重疊群,但首次草圖卻包含了1246個這樣的片段。重復的片段包括著絲粒和核糖體DNA等,無法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。對于此,科學家們只能持續(xù)地完善組裝,手動檢查,并使用測序分析來識別有錯誤和信息缺口的片段。

人類基因組圖譜的最新版本于2013年發(fā)布,被稱為GRCh38。從那時起,它就被反復修補。然而,一直以來,它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區(qū)域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏于大量重復基因拷貝的長序列中。

以著絲粒為例,攜帶基因的兩條染色體臂通過著絲粒相連。著絲粒由數(shù)千個幾乎一樣的α衛(wèi)星序列組成——171bp的α衛(wèi)星重復單位需要被正確排布以確保染色體穩(wěn)定和細胞分裂。然而,在人類基因組草圖發(fā)布20年后,著絲粒和其他有難度的DNA序列仍然是染色體圖譜中難以填補的缺口。

這些難題持續(xù)阻礙著基因組的組裝——如果測序技術沒有發(fā)生顛覆性改變,人類基因組測序將在很長時間內停滯不前。

好在不間斷讀取長鏈DNA的測序技術終于問世。其中,一種技術是加州生物技術公司太平洋生物科學使用的成像系統(tǒng)來直接讀取數(shù)十萬甚至數(shù)百萬條平行DNA鏈,每條鏈包含數(shù)千個堿基。另一種技術則是英國公司的牛津納米孔技術,它將DNA鏈穿過微小的蛋白孔或納米孔,測量核苷酸穿過孔道時電流的細微變化,進而讀取數(shù)萬至數(shù)十萬個堿基。

在長鏈DNA的測序技術下,跨越20年的人類基因組謎題終于大白。

從填補缺口到完整發(fā)布

2022年4月1日,第一個完整的、無間隙的人類基因組序列發(fā)布,徹底填補了多年前的測序空白。人類基因組完整測序離不開T2T聯(lián)盟的努力。T2T聯(lián)盟成立于2019年初,旨在為每個人類染色體提供高質量的從端粒到端粒的組裝。

該研究針對剩余8%的基因組,提供了人類基因組的完整30.55億堿基對序列T2T-CHM13,包括了除Y之外的所有染色體的無間隙裝配,糾正了之前的參考序列,并介紹了近2億個堿基對序列,包含1956個基因預測,其中,99個預測為蛋白質編碼。完成的區(qū)域包括所有著絲粒衛(wèi)星陣列、最近的節(jié)段重復和所有五個近端著絲粒染色體的短臂。

與過去20年的任何基因組參考版本相比,T2T-CHM13組裝增加了五個完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復雜的區(qū)域。比如染色體末端的端粒和在細胞分裂過程中協(xié)調同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測到的片段重復(在基因組中重復的長段DNA),這些重復片段可在進化和疾病中發(fā)揮重要作用。

具體來看,CHM13是一種腫瘤衍生細胞系,其基因組包含兩套相同的染色體。這就避免了二倍體基因組的復雜性,因為二倍體基因組具有來自父母雙方的不同染色體拷貝。在2020年底,T2T聯(lián)盟的研究人員公布了兩個染色體的完整組裝,即X染色體和8號染色體。

研究人員使用牛津納米孔技術,對兩條染色體的片段進行測序,這兩條染色體的長度通常超過7萬個堿基,其中一條讀長甚至超過100萬個堿基。雖然很成功,但是對X染色體和8號染色體的測序過程卻費力且艱苦。

除了長鏈DNA的測序技術外,完成和檢查基因組組裝還需要專用的軟件,這套工具由Phillippy和加州大學圣地亞哥分校計算生物學家PavelPevzner等研究人員共同開發(fā)。研究人員表示,這是一個非常謹慎的過程,只有兩個長度超過7000個堿基的序列,基本上100%相同,他們才會把它們粘合在一起,因為一旦你、在組裝中引入一個錯誤,就很難修復它。

在這個過程中,PacBio儀器支持環(huán)形一致測序(CCS),在此過程中單個DNA鏈被轉換成可以反復讀取的閉環(huán)。通過比較這些重復序列,研究員可以消除隨機錯誤,獲取高度準確的結果。早期版本的CCS最多容納幾千個堿基,在基因組組裝中用途有限。但2019年,PacBio改進了這一過程,后續(xù)的高保真技術如今產生超過2萬個堿基的一致序列,準確率超過99%。

其次,研究人員還利用了作圖技術,比如加州生物科技公司BionanoGenomics開發(fā)的一種技術,使得測量一條染色體上不同DNA序列之間的距離成為可能。當然,對X染色體的初步研究也離不開之前對該染色體著絲粒的了解,此著絲粒的結構已經被充分研究。

T2T的方法也使得龐大復雜的基因測序工作相對縮短,而T2T-CHM13的問世則為科學家提供了一種有效的方式,來訪問和可視化與基因組和基因組其他元素相關的大量信息。如今,有了完整的基因組,科學家就能進一步研究該片段在人類種群中的多樣性以及導致疾病的精細遺傳點。

這也是本次測序工作最大的意義所在——通過長讀測序技術解決復雜區(qū)域的序列結構,為后續(xù)的精準醫(yī)療和分子診斷提供更為精細的索引。

基因組學新時代

完整基因組序列的公布對于揭示人類進化、生老病死的意義是巨大的。實際上,4月1日,與完整的的人類基因組序列的論文同時發(fā)布的,還有5篇相關論文。其他5篇論文就分別從5個方面探討了完整基因組在人類遺傳學上的重要性。

5篇論文中的第一篇主要研究segmental duplication等復雜區(qū)域;第二篇論文重點介紹了中心粒的結構和其表觀圖譜;第三篇論文討論的是該完整基因組如何提高對人類遺傳變異多樣性的分析;第四篇論文說明了人類基因組重復序列中的基因表達和其表觀圖譜;第五篇論文則介紹了該完整基因組的表觀圖譜。

要知道,過去未被揭示的8%的基因組代表了醫(yī)學和基因組知識的巨大差距。差距就在人類染色體的兩個關鍵區(qū)域:端粒和著絲粒。

端粒是位于染色體末端的小帽。這個部分隨著人年齡的增長而縮短。已經有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長的人更早死亡,通過延長端粒來減緩衰老速度是一種可能的方法。

著絲粒位于染色體中間部分。這個區(qū)域在細胞分裂過程中扮演了很重要的角色,因為蛋白質就是在這個狹窄部位附著并分裂 DNA,兩個新細胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問題或者錯誤。

并且,對于癌癥來說,追溯基因突變是了解癌細胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個突變。如果能夠在人體的乳腺、肺部、神經系統(tǒng)等十幾個組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見的突變過程與人群中發(fā)生頻率較低的罕見突變過程區(qū)分開來。

而基因組測序能夠讓科學家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測序(WGS)方法,可全面探索所有類型的癌癥基因改變。

可以說 ,完整的基因測序開創(chuàng)了基因組學的新時代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對人類本身的了解還將邁上新的臺階,很多疾病的病因將被揭開,治療方案就能“對因下藥”,生活起居、飲食習慣也有可能根據(jù)基因情況進行調整。

利用基因,人們可以改良果蔬品種,提高農作物的品質,更多的轉基因植物和動物、食品將問世,人類可能在新世紀里培育出超級物作。通過控制人體的生化特性,人類將能夠恢復或修復人體細胞和器官的功能,甚至改變人類的進化過程。而這種改變帶來的顛覆,不比工業(yè)革命或互聯(lián)網的誕生來得更小。

對于此,BBC《科技聚焦》雜志說,在大部分人還沒有意識到的時候,人類已經“處于一場深刻的醫(yī)學和技術革命的山腳下,這場革命不僅帶來了新療法和治療方法的前景,還帶來了關于倫理、平等和健康正義的巨大問題”。

鑒于我們在當前環(huán)境中對某些基因的功能所知甚少,有專家指出,在進行有可能影響千年的基因改造時,必須格外謹慎。畢竟,當前,人類暫時無法知道一個基因變異會對人類細胞造成的所有變化,也很難預見未來千百年后的環(huán)境下基因編輯對人類所起的作用。要判斷一個基因編輯是否合乎倫理,我們首先需要了解這個編輯的基因會帶領人類進入一個什么樣的未來世界。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。