使用 SMRT Link 工具进行细菌基因组组装
之前我写过用canu+flye的工具组合进行pacbio数据组装:2021-10-27【WGS】丨Pacbio三代甲基化修饰流程。最近和同事沟通,发现有smrtlink有更好的组装工具,并且比之前的流程更加方便,组装质量也更好。在本篇博客文章中,我将详细介绍如何使用 SMRTLink工具进行细菌基因组的组装。SMRTLink 是 PacBio 公司提供的一个强大的生物信息学软件平台,它能够处理和分析来自 PacBio 测序仪的长读长数据。我将重点介绍细菌基因组组装的流程,包括分析命令和参数的详细说明。
细菌基因组组装的重要性
细菌基因组组装是微生物基因组学研究中的关键步骤,它能够从测序数据中重建出完整的基因组序列。三代测序可以获取长读长序列,与二代组装相比,更加高效高质。高质量的基因组组装对于后续的功能基因注释、比较基因组学研究以及病原体的鉴定和研究都至关重要。
SMRT Link 工具简介
SMRT Link 提供了一整套的分析工具,用于处理 PacBio 测序数据。这些工具包括用于数据质量控制、比对,甲基化分析,组装、变异检测和基因表达分析等。详细信息可以在官方文档:参考指南中进行阅读。在细菌基因组组装中,我们将主要使用以下工具:
Genome Assembly
:用于生成去 novo 组装的细菌基因组。Microbial Genome Analysis
:用于分析小的细菌基因组和质粒。
组装流程
1. 准备数据
首先,确保你有 PacBio 测序仪生成的 HiFi 读取数据,通常以 BAM 格式提供,并附带pbi和xml文件。
注意:xml文件需要检查里面的bam和pbi文件的路径是否正确,如果从测序公司那里获取的数据,可能需要进行调整。或者通过smrtlink也可以自行生成一个xml,--type
参数需要核实清楚,可能获取的数据包括以下类型: SubreadSet, AlignmentSet, ReferenceSet,
HdfSubreadSet, BarcodeSet, ConsensusAlignmentSet,
ConsensusReadSet, ContigSet.
dataset create [-h] [--type DSTYPE] [--name DSNAME] [--generateIndices]
[--metadata METADATA] [--novalidate] [--relative]
outfile infile [infile ...]
2. 运行 Microbial Genome Analysis 工具
smrtlink有两个组装工具,一个是组装大基因组的 Genome Assembly
,另一个就是组装小基因组(细菌1.9-10Mb)的Microbial Genome Analysis
。
使用 SMRT Link 的 Microbial Genome Analysis
工具进行组装。以下是一个基本的组装命令示例:
pbcromwell run pb_microbial_analysis \
-e <input.consensusreadset.xml> \
--task-option ipa2_genome_size=0 \
--task-option ipa2_downsampled_coverage=0 \
--task-option microasm_plasmid_contig_len_max=300000 \
--task-option ipa2_cleanup_intermediate_files=True \
--task-option dataset_filters="" \
--task-option filter_min_qv=20 \
--nproc 8
在这个常规分析命令中:
pbcromwell
是用来运行 SMRT Link 工作流的命令行工具。run
是告诉pbcromwell
要执行一个工作流的命令。pb_microbial_analysis
是指定要运行的工作流,这里是微生物基因组分析。-e <input.consensusreadset.xml>
指定输入文件,这里是 HiFi 读取的 ConsensusReadSet XML 文件。--task-option ipa2_genome_size=0
预估的基因组大小,用于下采样。设置为 0 表示不进行下采样。--task-option ipa2_downsampled_coverage=0
预期的覆盖度。设置为 0 表示使用全部数据。--task-option microasm_plasmid_contig_len_max=300000
指定质粒 contig 的最大长度,用于区分质粒和染色体。--task-option ipa2_cleanup_intermediate_files=True
是否清理中间文件,以节省空间。--task-option dataset_filters=""
用于添加数据集的额外过滤器。--task-option filter_min_qv=20
设置 HiFi 读取的最小质量值。--nproc 8
指定用于运行工作流的线程数。
3. 其他组装参数介绍
本人第一次组装之后,发现常规命令除了进行组装分析外,还提供motifs和modification analysis,当然这会增加项目整体运行时间(一个样品大概11h)。这部分额外的注释分析可以通过--task-option run_basemods
和--task-option run_find_motifs
设置取消后面的步骤。
4. 分析结果
组装完成后,你将获得多个输出文件,包括:
final_assembly.fasta
:包含所有组装好的 contigs 的文件。assembly.rotated.polished.renamed.fsa
:用于 NCBI 提交的文件,与final_assembly.fasta
内容相同,但头信息有所改变。collected_circ.txt
统计了成环的序列名称,选择最长的、符合细菌基因组大小的一条序列进行后续注释分析
结论
使用 SMRT Link 进行细菌基因组组装是一个高效且强大的方法。通过适当的参数配置和分析工具,你可以获得高质量的基因组组装结果,为后续的生物学研究打下坚实的基础。
🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:
👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。
🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。
📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。
📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。
💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复您。
🌐 点击下方的微信名片,获取本书资料,加入交流群,与志同道合的朋友们一起探讨、学习和成长。