文|觀察未來科技
人類的基因組是一本書寫生命的“天書”。每個物種都有自己的基因組,負(fù)責(zé)指示細(xì)胞什么時候、通過什么方式構(gòu)建這個物種的個體生命藍(lán)圖。
對于人類來說,完整的基因組圖譜將有助于更好理解人作為一個有機體是如何形成的,一個有機體和其他人、其他物種之間又有哪些不同,為什么會有這些不同。近日,隨著兩篇最新研究論文在頂尖學(xué)術(shù)期刊《自然》正式上線,人類Y染色體的完整序列終于展現(xiàn)在世人面前。
值得一提的是,Y染色體是人類的性別決定染色體之一,也是人類46條染色體中最后一條完全解碼的染色體。那么,人類Y染色體完整序列的解碼,給我們帶來了什么信息?基于人類基因組的完整序列,對我們來說,又意味著什么?
被遺漏的Y染色體
人類對于自身基因組的解碼從21世紀(jì)初就已經(jīng)開始。2001年,人類啟動了解碼人類基因組的計劃,成為醫(yī)學(xué)和遺傳學(xué)的里程碑。兩年后,2003年,人類基因組計劃基本完成。自此之后,我們邁入了基因組學(xué)的時代。
不過,當(dāng)時,受到技術(shù)的限制,最后得出的基因組圖譜并不算完美。在“人類基因組計劃”中,科學(xué)家們采用了一種稱為“Shotgun測序”的方法來獲得基因組片段的序列信息。這個方法類似于將整個基因組隨機地切成許多小片段,然后對這些片段進(jìn)行測序,最后再通過計算機算法將它們拼接起來。
但眾所周知,人類的基因組非常龐大,這種方法在切割和測序的過程中會導(dǎo)致許多重復(fù)的片段,特別是在重復(fù)序列豐富的區(qū)域,比如著絲粒和核糖體DNA。這些重復(fù)片段的存在使得科學(xué)家們很難確定這些片段的準(zhǔn)確順序和位置。就像在一副拼圖中,有許多相同的拼圖碎片,無法確定它們的正確位置。
在初次草圖中,基因組被分割成了大約1246個重疊群,這意味著這么多的基因組片段無法在組裝時被正確地連接在一起。
由于科學(xué)家們難以區(qū)分相似的片段,也無法確定它們之間的精確關(guān)系,因此在基因組圖譜上留下了許多未知的區(qū)域。對此,科學(xué)家們只能使用一些額外的信息和技術(shù)來進(jìn)行驗證和修復(fù)。比如使用其他測序方法來填補信息缺失的片段,或者依靠已知的基因和序列信息來指導(dǎo)組裝過程。這也是過去20多年里,科學(xué)家不懈努力的重點之一。
事實上,想要“從頭到尾”地對基因組進(jìn)行測序本身就是件非常具有挑戰(zhàn)的任務(wù),因為基因組中存在大量重復(fù)序列。人類所擁有的約2萬個基因,只占了整個基因組的2%,剩下的98%基本上都是由這些重復(fù)序列家族組成的。
2022年3月末,《科學(xué)》雜志上刊登了6篇論文,介紹了由一個名為“端粒到端粒(T2T)聯(lián)盟”的科學(xué)家團(tuán)隊通過使用新的測序技術(shù),破解了人類基因組中此前無法破譯的區(qū)域,產(chǎn)生了當(dāng)時最完整的參考基因組。
2022年解碼的基因組不僅糾正了之前的參考序列,還增加了五個完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復(fù)雜的區(qū)域。比如染色體末端的端粒和在細(xì)胞分裂過程中協(xié)調(diào)同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測到的片段重復(fù)(在基因組中重復(fù)的長段DNA),這些重復(fù)片段可在進(jìn)化和疾病中發(fā)揮重要作用。
在這項成果中,科學(xué)家們成功地在人類基因組中增加了大約2億個堿基,解碼了從1號到22號染色體上的大部分空缺,而唯一被遺漏的,是人類所有染色體中最小的一條——Y染色體。
揭開人類基因組的最后謎團(tuán)
2022年之后,Y染色體就成為了人類基因組的最后謎團(tuán)。
Y染色體之所以會成為人類基因組的最后謎團(tuán),與其重復(fù)結(jié)構(gòu)的異常復(fù)雜有關(guān)。Y染色體作為人類基因組中的一個特殊染色體,僅在男性中存在,負(fù)責(zé)決定男性的生殖特征。然而,Y染色體與其他染色體不同,它的重復(fù)序列異常復(fù)雜。
所有染色體都有一些重復(fù)序列,但在Y染色體中,重復(fù)序列所占的篇幅特別大,將近一半——約3000萬個堿基是重復(fù)序列,因此要把測序讀取到的片段重新拼裝起來就特別困難。就像拼純色圖案的拼圖一樣,由于Y染色體的重復(fù)結(jié)構(gòu),將測序讀取的碎片重新拼裝起來變得非常復(fù)雜。
這種復(fù)雜的重復(fù)結(jié)構(gòu)使得科學(xué)家們在解碼Y染色體時面臨巨大的挑戰(zhàn)。為了解決這一難題,T2T聯(lián)盟領(lǐng)導(dǎo)的這項新研究應(yīng)用了前沿的長讀取測序技術(shù)和新型的計算組裝方法,借鑒此前無縫組裝人類其他染色體時的成功經(jīng)驗,首次完成了Y染色體的測序和組裝。其結(jié)果填補了Y染色體長度50%以上的空白,同時糾正了原先人類參考基因組序列中Y染色體上的多個錯誤。
根據(jù)此次獲得的完整序列(T2T-Y),人類的Y染色體由62,460,029對堿基組成??茖W(xué)家們從中新鑒定出了41個過去未知的蛋白編碼基因,也揭示了影響生育的重要基因組特征。
例如,Y染色體有一段被稱為“無精子癥因子區(qū)”,包含了與精子生成有關(guān)的幾個基因。而這段DNA中有一組回文序列。這種回文結(jié)構(gòu)會形成環(huán)狀結(jié)構(gòu)(DNA loop),有時DNA環(huán)被意外切斷,造成缺失。而“無精子癥因子區(qū)”的DNA缺失會破壞精子生成,導(dǎo)致不育。研究人員指出,有了完整的Y染色體序列,現(xiàn)在就可以更精確地分析這類缺失及其對精子生成的影響。
此次研究還重點關(guān)注了TSPY(testis-specific protein Y)基因家族,即睪丸特異性蛋白編碼基因,新發(fā)現(xiàn)的41個基因中有38個屬于這一家族。它們的一大特征是串聯(lián)重復(fù)拷貝非常多。研究人員在分析這一區(qū)域時發(fā)現(xiàn),不同的個體含有的TSPY拷貝10~40個不等。
與此同時,由杰克遜實驗室(JAX)教授和Robert Alvine家族捐贈主席Charles Lee博士領(lǐng)導(dǎo)的團(tuán)隊FACMG也在《自然》雜志上發(fā)表了完成43個不相關(guān)男性的Y染色體組裝的報告,其中近一半來自非洲血統(tǒng)。研究團(tuán)隊一共組裝了43條來自不同男性個體的Y染色體,他們來自全球21個不同種群。這些組合提供了人類Y染色體在18.3萬年間遺傳變異的詳細(xì)視圖,揭示了新的DNA序列、保守區(qū)域的特征,并揭示了造成Y染色體復(fù)雜結(jié)構(gòu)的分子機制。結(jié)果發(fā)現(xiàn),Y染色體不僅結(jié)構(gòu)復(fù)雜,還是人類染色體中變化速度最快的染色體。
可以看到,完整的人類Y染色體序列正在為許多新發(fā)現(xiàn)打開大門。一直以來,人們都不甚了解Y染色體對男性健康的影響。而基于Y染色體的完整序列,后續(xù)將有更多研究可以圍繞影響健康的臨床相關(guān)基因深入探索。
揭示生命的密碼
完整基因組序列的揭示對于揭示人類進(jìn)化、生老病死的意義是巨大的。其關(guān)鍵在于兩個部分:端粒和著絲粒。
其中,端粒是位于染色體末端的小帽。這個部分隨著人年齡的增長而縮短。已經(jīng)有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長的人更早死亡,通過延長端粒來減緩衰老速度是一種可能的方法。
著絲粒位于染色體中間部分。這個區(qū)域在細(xì)胞分裂過程中扮演了很重要的角色,因為蛋白質(zhì)就是在這個狹窄部位附著并分裂 DNA,兩個新細(xì)胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問題或者錯誤。
并且,對于癌癥來說,追溯基因突變是了解癌細(xì)胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個突變。如果能夠在人體的乳腺、肺部、神經(jīng)系統(tǒng)等十幾個組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見的突變過程與人群中發(fā)生頻率較低的罕見突變過程區(qū)分開來。
而基因組測序能夠讓科學(xué)家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測序(WGS)方法,可全面探索所有類型的癌癥基因改變。
此次人類Y染色體的完整序列的揭示更是讓我們對Y染色體有了更多的了解,大大增加了我們對人類DNA的認(rèn)識,解決了我們尚未發(fā)現(xiàn)的關(guān)于我們基因組中最小的但又最復(fù)雜的染色體的問題。這項研究的完成意味著科學(xué)家們可以更詳細(xì)地研究這些基因的功能和相互作用。這有助于解開一系列關(guān)于性別差異、男性生育力以及一些性別相關(guān)疾病如何產(chǎn)生的謎團(tuán)。
此外,Y染色體也扮演著人類進(jìn)化歷史中的一部分。通過研究Y染色體的變異和演化,科學(xué)家們能夠更好地理解人類族群的歷史,包括遷徙和人類群體之間的關(guān)系。究其原因,Y染色體的特殊之處在于它在每一代中只由父親傳給兒子,不同于其他染色體在父母間的隨機遺傳。這使得Y染色體上的基因變異能夠被相對穩(wěn)定地追蹤,成為一種有力的工具來研究人類族群的歷史。通過比較不同地理區(qū)域和族群的Y染色體序列,科學(xué)家們可以重建人類的遷徙路徑和演化關(guān)系。
比如,研究表明,不同地區(qū)的男性Y染色體具有特定的遺傳標(biāo)記,這些標(biāo)記可以追溯到人類古代的遷徙和定居歷史。通過分析這些遺傳標(biāo)記的分布,科學(xué)家們可以推斷出人類祖先從哪里起源,是如何分布到不同地區(qū),甚至可以追蹤古代遷徙路線。這些研究揭示了我們的祖先是如何適應(yīng)不同環(huán)境、逐步占領(lǐng)地理區(qū)域,并最終形成多樣的人類族群的。
可以說 ,包括Y染色體在內(nèi)的完整的基因測序開創(chuàng)了基因組學(xué)的新時代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對人類本身的了解還將邁上新的臺階,很多疾病的病因?qū)⒈唤议_,治療方案就能“對因下藥”,生活起居、飲食習(xí)慣也有可能根據(jù)基因情況進(jìn)行調(diào)整。