前沿 | 兰州大学研究团队开发群体SV合并软件助力泛基因组研究

2024-02-19 09:02:30 6

近年来,随着测序技术的不断进步,尤其泛基因组研究的不断深入,结构变异(SV)的重要性逐渐被更多人认可。但是由于SV的复杂性和多样性,目前不论是获取个体水平还是群体水平的高质量SV集合仍是一大挑战。这主要是因为不同软件或个体在同一个位置可能被鉴定出多种类型的SV,当前的软件无法很好的整合,进而判定错误或保留为multi-allelic SV。其次位于重复区域SV无法准确的判定其位置,进而导致同一个SV可能被判定为不同的SV,无法准确的利用SV信息。为此,兰州大学生态学院刘建全教授团队基于序列比对的原理开发了一款名为PanPop的软件,在群体水平合并SV方面做出了重要突破,为泛基因组研究提供了新的解决方案,并为深入理解基因组差异和表型变异提供了强大工具。

PanPop的核心算法为PART(PAnop’s Realign and Part,图1a),可以整合并过滤多个SV-caller的结果。PART不同于传统SV合并算法,研究人员创新性的使用了SV重比对和再分割技术,得以将以往难以合并的长片段、高差异的SV切割为多个较短且简单的SV。同时,PART还会合并相似的单倍型进而得到更多的Biallelic-SV,大幅度降低了后续SV分析的难度。同时PanPop流程还集成了从reads到个体/群体SV的整套流程,且自由度极高。并且,在群体SV合并过程中,PanPop还可以根据深度信息自动填充缺失信息,显著降低缺失率。

通过比较PanPop和目前大部分的SV合并软件,可以发现PanPop的综合表现最优。在单个体、多SV-Caller的整合中,发现整合5个SV-Caller时可以明显提高准确性。而且在过滤SV时,确保单个SV至少被两个SV-Caller支持,可以明显降低假阳性率,综合表现最优(图1b,c)。在多个体的群体SV合并中,PanPop可以在保持高准确性的同时,得到较低的缺失率和较多的Biallelic-SV(图2)。

此外,值得一提的是PanPop是基于多线程开发的软件,可以充分的利用更多资源进而快速处理大规模的基因组数据,大大提高了合并的效率,确保了PanPop在海量数据处理中的优势。同时PanPop已经开源可免费使用(https://github.com/starskyzheng/panpop),提供傻瓜式安装、一键启动、全集群满载、高度可定制的分析策略。其各项关键参数都在控制文件中且均可手动调整,以适用不同的分析情况,且PanPop专门提供了一个独立的程序入口,可以直接处理各种VCF文件。

图片关键词

图1. PART算法示意图(a)和单个体多SV-caller合并的软件间比较(b,c)

图片关键词

图2. 群体SV合并

目前,该研究结果在Nature Communications杂志在线发表(https://doi.org/10.1038/s41467-024-45244-9),题目为“A sequence-aware merger of genomic structural variations at population scale”。目前刘建全课题组已普遍采用PanPop进行SV分析,且已有牦牛泛基因组文章已经见刊于Nature Communications(https://doi.org/10.1038/s41467-023-41220-x)。兰州大学刘建全和杨勇志教授为论文通讯作者,在读博士研究生郑泽宇为第一作者。该研究受到了科技部重点研发计划(2023YFF0805600)、甘肃省基础研究创新群体、国家自然基金(32170219)、中央高校兰州大学优秀青年支持计划项目和草种创新和草地农业生态系统国家重点实验室青年英才培育计划的资助,以及兰州大学超算中心、生态学院实验中心西部生态环境与区域发展大数据计算平台和兰大管理学院数据中心机房提供的计算资源。(来源:澎湃新闻)