Genome Research | 基因组组装评估的新标准及11个HiFi组装软件评估

点击蓝字

077f38c9bf58b25f0614d47f8e8be948.png

关注我们

cd55cea7e662d199f2ce36226e20ba9e.gif

近日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)潘玮华课题组联合美国加州大学河滨分校Stefano Lonardi课题组福建农林大学魏秀清课题组《基因组研究(Genome Research)》上发表了题为“Comprehensive assessment of 11 de novo HiFi assemblers on complex eukaryotic genomes and metagenomes”的研究论文,研究提出了5个基于特异性字串的基因组组装新指标,用于评价组装结果的完整性和正确性,并在4个真实数据集和40个不同倍性、测序覆盖度、杂合度和测序错误率的仿真数据集上,利用这5个指标对11个基于HiFi数据的基因组和宏基因组组装工具进行了系统性评估

e883bdb754c393ab9b2fd7b90805230d.png

在分子生物学和基因组学领域,最新的单分子测序(SMS)技术,如Pacific Biosciences(PacBio)HiFi和Oxford Nanopore Technologies(ONT),显著提高了基因组从头组装的质量。其中,PacBio HiFi技术可产生超过10 kbp的长序列,且错误率低于0.01%,在人类、植物、动物等众多真核基因组的组装中取得了重大进展。尽管如此,基因组从头组装在计算上仍面临诸多挑战,包括基因组的高重复性区域、测序错误、测序覆盖度不均或不足以及嵌合序列等问题。

1cdae747db06ab8190aa57d1a0f68645.png

图 | 5个组装新评价指标介绍

该研究系统地评估了11种针对HiFi测序技术的组装工具。通过在三个真实真核基因组数据集、34个具有不同倍性、测序覆盖度、杂合率和测序错误率的仿真真核基因组数据集、一个真实的宏基因组数据集以及五个具有不同组成丰度和相似性的仿真宏基因组数据集上进行比较实验,来评估各组装软件的性能。研究使用了标准的评估工具QUAST和BUSCO获取连续性、完整性、正确性、运行时间和内存使用等多个评价指标。并首次提出了5个基于特异性字串的评价指标,包括完成率、单拷贝完成率、重复完成率、最大类别平均比例、平均距离差异,用于有参考基因组时评估组装结果的完整性和准确性。相比于已有评价指标,基于特异性字串的评价指标更易于针对重复序列(包括各种串联和散在重复区域、各同源染色体的同源区域、宏基因组中近缘基因组等)准确地进行质量评估。

评估结果显示,hifiasm和hifiasm-meta分别成为组装真核基因组和宏基因组的优选工具。在真核生物基因组组装中,hifiasm在不同方法比较的组装基因组均具有更高的连续性、完整性和准确性;HiCanu、Verkko与LJA次之,但Verkko与LJA具有组装的contig较短等缺陷;NextDenovo仅对单倍体基因组具有更好的性能。宏基因组组装评估中,hifiasm-meta以及metaflye的组装错误最少,但是在面对复杂宏基因组时hifiasm-meta的完整性及连续性明显优于metaflye,但同时也会保留部分冗余的序列。

该研究为研究人员提供了关于如何利用高精度长序列数据高质量组装复杂真核基因组和宏基因组的明确指导,不仅为相关组装研究推荐了最合适的组装工具,还指出了组装算法可能的改进方向。

基因组所博士后余文娟、访问学生罗浩辉,联合培养博士生杨金宝张晟铖、科研助理蒋和灵为本文共同第一作者。基因组所潘玮华研究员、美国加州大学Stefano Lonardi教授、福建农林大学魏秀清教授为本文共同通讯作者。该研究得到了国家自然科学基金、深圳市优秀科技创新人才培养项目、美国国家自然科学基金等资助。

原文链接(点击阅读原文可直接跳转):

https://genome.cshlp.org/content/early/2024/03/01/gr.278232.123.abstract

宏基因组推荐

本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值