2024.09.06【读书笔记】|如何使用 SMRTLink工具对PacBio数据进行细菌基因组组装

最新推荐文章于 2024-11-22 11:16:51 发布

穆易青

最新推荐文章于 2024-11-22 11:16:51 发布

阅读量2k

点赞数 34

分类专栏：组装三代读书笔记文章标签：人工智能

本文链接：https://blog.csdn.net/yangl7/article/details/141954385

版权

读书笔记同时被 3 个专栏收录

115 篇文章

订阅专栏

组装

16 篇文章

订阅专栏

三代

12 篇文章

订阅专栏

使用 SMRT Link 工具进行细菌基因组组装

之前我写过用canu+flye的工具组合进行pacbio数据组装：2021-10-27【WGS】丨Pacbio三代甲基化修饰流程。最近和同事沟通，发现有smrtlink有更好的组装工具，并且比之前的流程更加方便，组装质量也更好。在本篇博客文章中，我将详细介绍如何使用 SMRTLink工具进行细菌基因组的组装。SMRTLink 是 PacBio 公司提供的一个强大的生物信息学软件平台，它能够处理和分析来自 PacBio 测序仪的长读长数据。我将重点介绍细菌基因组组装的流程，包括分析命令和参数的详细说明。

细菌基因组组装的重要性

细菌基因组组装是微生物基因组学研究中的关键步骤，它能够从测序数据中重建出完整的基因组序列。三代测序可以获取长读长序列，与二代组装相比，更加高效高质。高质量的基因组组装对于后续的功能基因注释、比较基因组学研究以及病原体的鉴定和研究都至关重要。

SMRT Link 工具简介

SMRT Link 提供了一整套的分析工具，用于处理 PacBio 测序数据。这些工具包括用于数据质量控制、比对，甲基化分析，组装、变异检测和基因表达分析等。详细信息可以在官方文档：参考指南中进行阅读。在细菌基因组组装中，我们将主要使用以下工具：

Genome Assembly：用于生成去 novo 组装的细菌基因组。
Microbial Genome Analysis：用于分析小的细菌基因组和质粒。

组装流程

1. 准备数据

首先，确保你有 PacBio 测序仪生成的 HiFi 读取数据，通常以 BAM 格式提供，并附带pbi和xml文件。
注意：xml文件需要检查里面的bam和pbi文件的路径是否正确，如果从测序公司那里获取的数据，可能需要进行调整。或者通过smrtlink也可以自行生成一个xml,--type参数需要核实清楚，可能获取的数据包括以下类型： SubreadSet, AlignmentSet, ReferenceSet,
HdfSubreadSet, BarcodeSet, ConsensusAlignmentSet,
ConsensusReadSet, ContigSet.

dataset create [-h] [--type DSTYPE] [--name DSNAME] [--generateIndices] 
[--metadata METADATA] [--novalidate] [--relative] 
outfile infile [infile ...]

2. 运行 Microbial Genome Analysis 工具

smrtlink有两个组装工具，一个是组装大基因组的 Genome Assembly，另一个就是组装小基因组（细菌1.9-10Mb）的Microbial Genome Analysis。
使用 SMRT Link 的 Microbial Genome Analysis 工具进行组装。以下是一个基本的组装命令示例：

pbcromwell run pb_microbial_analysis \
  -e <input.consensusreadset.xml> \
  --task-option ipa2_genome_size=0 \
  --task-option ipa2_downsampled_coverage=0 \
  --task-option microasm_plasmid_contig_len_max=300000 \
  --task-option ipa2_cleanup_intermediate_files=True \
  --task-option dataset_filters="" \
  --task-option filter_min_qv=20 \
  --nproc 8

在这个常规分析命令中：

pbcromwell 是用来运行 SMRT Link 工作流的命令行工具。
run 是告诉 pbcromwell 要执行一个工作流的命令。
pb_microbial_analysis 是指定要运行的工作流，这里是微生物基因组分析。
-e <input.consensusreadset.xml> 指定输入文件，这里是 HiFi 读取的 ConsensusReadSet XML 文件。
--task-option ipa2_genome_size=0 预估的基因组大小，用于下采样。设置为 0 表示不进行下采样。
--task-option ipa2_downsampled_coverage=0 预期的覆盖度。设置为 0 表示使用全部数据。
--task-option microasm_plasmid_contig_len_max=300000 指定质粒 contig 的最大长度，用于区分质粒和染色体。
--task-option ipa2_cleanup_intermediate_files=True 是否清理中间文件，以节省空间。
--task-option dataset_filters="" 用于添加数据集的额外过滤器。
--task-option filter_min_qv=20 设置 HiFi 读取的最小质量值。
--nproc 8 指定用于运行工作流的线程数。

3. 其他组装参数介绍

本人第一次组装之后，发现常规命令除了进行组装分析外，还提供motifs和modification analysis，当然这会增加项目整体运行时间（一个样品大概11h）。这部分额外的注释分析可以通过--task-option run_basemods和--task-option run_find_motifs设置取消后面的步骤。

4. 分析结果

组装完成后，你将获得多个输出文件，包括：

final_assembly.fasta：包含所有组装好的 contigs 的文件。
assembly.rotated.polished.renamed.fsa：用于 NCBI 提交的文件，与 final_assembly.fasta 内容相同，但头信息有所改变。
collected_circ.txt统计了成环的序列名称，选择最长的、符合细菌基因组大小的一条序列进行后续注释分析