前沿 | 我国学者首次建立从端粒到端粒的中国人全基因组

2023-12-29 09:12:21 8

端粒到端粒(T2T)联盟组装的参考基因组T2T-CHM13,是有史以来第一个具有卓越质量的完整单倍体人类基因组。但遗憾的是,基因组计划发展到现在,仍然没有中国人自己的参考基因组。

日前,北京大学人民医院高占成教授研究团队、中国科学院北京基因组研究所康禹教授研究团队在《基因组蛋白质组与生物信息学报》杂志发表研究论文,首次在世界范围内成功完成从端粒到端粒的中国人全基因组,获得包括Y染色体在内的高质量真实人类二倍体、完整无间隙的全基因组参考序列(44+XY)——“唐尧”基因组,其DNA序列具有明确的汉族中国人遗传特征。

据悉,样本来自一名生活在山西省一个古老村庄的健康男性,经核型检测,未见染色体结构异常。研究团队将该参考基因组命名为“T2T-YAO”,因为这个采样点位于几千年前的尧帝遗址附近,这个地区是明代洪洞移民的起点。这场迁徙持续了近半个世纪,大量移民遍布中国各地并进入东南亚。因此,T2T-YAO基因组有望成为汉族人群的全面代表。

根据祖源分析,YAO基因组的大部分来自东亚。其Y染色体单倍群鉴定为O-F2137,是中国主要的Y单倍群O-M122的主要后代群之一。

研究团队使用merqury(评估基因组质量的重要工具)来评估T2T-YAO,并分析其完整性、组装错误和单倍型之间的切换错误。其中T2T-YAO的质量值(QV)达到了参考质量的准确度,母本与父本分别达到了Q70.49和Q72.28,选择父母本中QV较高的常染色体及性染色体组成一套单倍体参考基因组,其质量达到了Q74.69。

研究发现,与基准基因组HG002相比,T2T-YAO表现出较少的错误重复、交换错误和较短的折叠区域,且T2T-YAO拥有更完整的rDNA(核糖体DNA)序列。与CHM13相比,YAO的单倍体间具有更多的序列共享性和更高的同一性。这意味着与汉族人群相比,不同族群之间存在更大的基因组距离。而不同单倍型间有10%的序列是独特的,代表了大部分个体间的基因组多样性。

研究团队还成功完成T2T-YAO的所有十个SAACs(近端着丝粒染色体短臂)区域,SAACs的成对比对揭示了异源染色体上几乎有相同的序列存在,形成了具有大量倒位、重复和易位的同源嵌合体,特别是在chr13、14、21和22之间。对十个SAACs区域的k-mer(一段长度为k的DNA片段)进行聚类,他们发现同源染色体的短臂显示出几乎相同的位置,但不同异源染色体的长臂彼此远离。

研究发现,YAO-Y基因结构与既往报道一致,两端包含伪常染色体区(PARs)、X转座区、扩增序列、异染色质卫星区和X简并区。扩增子存在于扩增区域,与CHM13-Y中观察到的模式相似。

该研究报告了一个完整、准确的中国汉族参考基因组T2T-YAO,能应用于未来的医学研究和临床实践中,为精准医疗夯实了基础。(来源:观察者网)