2024.09.06【读书笔记】|如何使用 SMRTLink工具对PacBio数据进行细菌基因组组装

15 篇文章 9 订阅
11 篇文章 5 订阅

使用 SMRT Link 工具进行细菌基因组组装

之前我写过用canu+flye的工具组合进行pacbio数据组装:2021-10-27【WGS】丨Pacbio三代甲基化修饰流程。最近和同事沟通,发现有smrtlink有更好的组装工具,并且比之前的流程更加方便,组装质量也更好。在本篇博客文章中,我将详细介绍如何使用 SMRTLink工具进行细菌基因组的组装。SMRTLink 是 PacBio 公司提供的一个强大的生物信息学软件平台,它能够处理和分析来自 PacBio 测序仪的长读长数据。我将重点介绍细菌基因组组装的流程,包括分析命令和参数的详细说明。

细菌基因组组装的重要性

细菌基因组组装是微生物基因组学研究中的关键步骤,它能够从测序数据中重建出完整的基因组序列。三代测序可以获取长读长序列,与二代组装相比,更加高效高质。高质量的基因组组装对于后续的功能基因注释、比较基因组学研究以及病原体的鉴定和研究都至关重要。

SMRT Link 工具简介

SMRT Link 提供了一整套的分析工具,用于处理 PacBio 测序数据。这些工具包括用于数据质量控制、比对,甲基化分析,组装、变异检测和基因表达分析等。详细信息可以在官方文档:参考指南中进行阅读。在细菌基因组组装中,我们将主要使用以下工具:

  • Genome Assembly:用于生成去 novo 组装的细菌基因组。
  • Microbial Genome Analysis:用于分析小的细菌基因组和质粒。

组装流程

1. 准备数据

首先,确保你有 PacBio 测序仪生成的 HiFi 读取数据,通常以 BAM 格式提供,并附带pbi和xml文件。
注意:xml文件需要检查里面的bam和pbi文件的路径是否正确,如果从测序公司那里获取的数据,可能需要进行调整。或者通过smrtlink也可以自行生成一个xml,--type参数需要核实清楚,可能获取的数据包括以下类型: SubreadSet, AlignmentSet, ReferenceSet,
HdfSubreadSet, BarcodeSet, ConsensusAlignmentSet,
ConsensusReadSet, ContigSet.

dataset create [-h] [--type DSTYPE] [--name DSNAME] [--generateIndices] 
[--metadata METADATA] [--novalidate] [--relative] 
outfile infile [infile ...]

2. 运行 Microbial Genome Analysis 工具

smrtlink有两个组装工具,一个是组装大基因组的 Genome Assembly,另一个就是组装小基因组(细菌1.9-10Mb)的Microbial Genome Analysis
使用 SMRT Link 的 Microbial Genome Analysis 工具进行组装。以下是一个基本的组装命令示例:

pbcromwell run pb_microbial_analysis \
  -e <input.consensusreadset.xml> \
  --task-option ipa2_genome_size=0 \
  --task-option ipa2_downsampled_coverage=0 \
  --task-option microasm_plasmid_contig_len_max=300000 \
  --task-option ipa2_cleanup_intermediate_files=True \
  --task-option dataset_filters="" \
  --task-option filter_min_qv=20 \
  --nproc 8

在这个常规分析命令中:

  • pbcromwell 是用来运行 SMRT Link 工作流的命令行工具。
  • run 是告诉 pbcromwell 要执行一个工作流的命令。
  • pb_microbial_analysis 是指定要运行的工作流,这里是微生物基因组分析。
  • -e <input.consensusreadset.xml> 指定输入文件,这里是 HiFi 读取的 ConsensusReadSet XML 文件。
  • --task-option ipa2_genome_size=0 预估的基因组大小,用于下采样。设置为 0 表示不进行下采样。
  • --task-option ipa2_downsampled_coverage=0 预期的覆盖度。设置为 0 表示使用全部数据。
  • --task-option microasm_plasmid_contig_len_max=300000 指定质粒 contig 的最大长度,用于区分质粒和染色体。
  • --task-option ipa2_cleanup_intermediate_files=True 是否清理中间文件,以节省空间。
  • --task-option dataset_filters="" 用于添加数据集的额外过滤器。
  • --task-option filter_min_qv=20 设置 HiFi 读取的最小质量值。
  • --nproc 8 指定用于运行工作流的线程数。

3. 其他组装参数介绍

本人第一次组装之后,发现常规命令除了进行组装分析外,还提供motifs和modification analysis,当然这会增加项目整体运行时间(一个样品大概11h)。这部分额外的注释分析可以通过--task-option run_basemods--task-option run_find_motifs设置取消后面的步骤。

4. 分析结果

组装完成后,你将获得多个输出文件,包括:

  • final_assembly.fasta:包含所有组装好的 contigs 的文件。
  • assembly.rotated.polished.renamed.fsa:用于 NCBI 提交的文件,与 final_assembly.fasta 内容相同,但头信息有所改变。
  • collected_circ.txt统计了成环的序列名称,选择最长的、符合细菌基因组大小的一条序列进行后续注释分析

结论

使用 SMRT Link 进行细菌基因组组装是一个高效且强大的方法。通过适当的参数配置和分析工具,你可以获得高质量的基因组组装结果,为后续的生物学研究打下坚实的基础。

🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:

👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。

🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。

📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。

📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。

💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复您。

🌐 点击下方的微信名片,获取本书资料,加入交流群,与志同道合的朋友们一起探讨、学习和成长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值