StringTie v2.2.3安装与使用-生物信息学工具25

12 篇文章 0 订阅
11 篇文章 0 订阅
01 背景

StringTie:高效的转录组装和RNA-Seq数据定量工具

StringTie使用高效的算法从对齐到参考基因组的批量RNA-Seq读取中恢复转录结构并估计其丰度。它以坐标排序的SAM/BAM/CRAM格式输入剪接对齐,并生成一个GTF输出文件,该文件包含组装的转录结构及其估计的表达水平(FPKM/TPM和碱基覆盖值)。

和trinity assembly效果等同。均为转录本组装软件,使用一个即可~

Trinity安装与使用-Trinity-v2.15.1(bioinfomatics tools-006)

02 参考
https://github.com/gpertea/stringtie   #官网

https://ccb.jhu.edu/software/stringtie  ##官方网站
 03 安装
方法1
git clone https://github.com/gpertea/stringtie
cd stringtie
make release

在上述第一次运行make命令时,会下载并编译一些库依赖项,但之后的任何StringTie更新(使用git pull)应该会重建得更快。

要完成安装,可以将生成的stringtie二进制文件复制到选择的程序目录中(最好是当前shell的PATH中的一个目录)。

这样构建和安装StringTie在普通的Linux或Apple MacOS桌面上应该不到一分钟。

请注意,只运行make会生成一个不太优化的可执行文件,该文件适用于调试和运行时检查,但比使用上面指示的make release命令构建的优化版本慢得多。

方法2

wget -c https://ccb.jhu.edu/software/stringtie/dl/stringtie-2.2.3.Linux_x86_64.tar.gz
tar -zxvf tab
04 使用及常用命令行
使用说明: ./stringtie -h

#### StringTie v2.2.3 用法:

stringtie <in.bam ..> [-G <guide_gff>] [-l <prefix>] [-o <out.gtf>] [-p <cpus>]
 [-v] [-a <min_anchor_len>] [-m <min_len>] [-j <min_anchor_cov>] [-f <min_iso>]
 [-c <min_bundle_cov>] [-g <bdist>] [-u] [-L] [-e] [--viral] [-E <err_margin>]
 [--ptf <f_tab>] [-x <seqid,..>] [-A <gene_abund.out>] [-h] {-B|-b <dir_path>}
 [--mix] [--conservative] [--rf] [--fr]

将RNA-Seq比对组装成潜在转录本。

#### 选项:
- --version: 打印版本号并退出
- --conservative: 保守的转录本组装,与`-t -c 1.5 -f 0.05`相同
- --mix: 提供短读和长读数据比对(长读比对必须是第二个BAM/CRAM输入文件)
- --rf: 假设链特异性文库fr-firststrand
- --fr: 假设链特异性文库fr-secondstrand
- -G: 用于指导组装过程的参考注释(GTF/GFF)
- --ptf: 从给定的4列特征文件<f_tab>加载点特征
- -o: 组装转录本GTF的输出路径/文件名(默认: stdout)
- -l: 输出转录本的名称前缀(默认: STRG)
- -f: 最小异构体分数(默认: 0.01)
- -L: 长读处理;同时强制`-s 1.5 -g 0`(默认: false)
- -R: 如果提供长读,只清理和合并读,不组装
- -m: 最小组装转录本长度(默认: 200)
- -a: 连接点的最小锚长度(默认: 10)
- -j: 最小连接点覆盖度(默认: 1)
- -t: 禁用根据覆盖度修剪预测的转录本(默认: 启用覆盖度修剪)
- -c: 考虑多外显子转录本的每bp最小覆盖度(默认: 1)
- -s: 考虑单外显子转录本的每bp最小覆盖度(默认: 4.75)
- -v: 详细模式(日志束处理细节)
- -g: 读映射之间允许的最大间隙(默认: 50)
- -M: 允许多命中读覆盖的束分数(默认: 1)
- -p: 使用的线程数(CPU)(默认: 1)
- -A: 基因丰度估计输出文件
- -E: 定义从长读可能出错的剪接位点周围的窗口,以查找正确的剪接位点(默认: 25)
- -B: 启用输出Ballgown表文件,这些文件将在输出GTF的相同目录中创建(需要`-G`,建议使用`-o`)
- -b: 启用输出Ballgown表文件,但这些文件将在给定的目录路径下创建
- -e: 仅估计给定参考转录本的丰度(需要`-G`)
- --viral: 仅适用于来自病毒数据的长读,其中剪接位点不遵循共识(默认: false)
- -x: 不组装给定参考序列上的任何转录本
- -u: 不进行多重映射修正(默认: 启用修正)
- -h: 打印此使用说明并退出
- --ref/--cram-ref: 用于CRAM输入的参考基因组FASTA文件

转录本合并模式:

stringtie --merge [Options] { gtf_list | strg1.gtf ...}

在此模式下,StringTie将从多个输入文件中组装转录本,生成一个统一的非冗余异构体集合。

可用选项:
- -G <guide_gff>: 合并中包含的参考注释(GTF/GFF3)
- -o <out_gtf>: 合并转录本GTF的输出文件名(默认: stdout)
- -m <min_len>: 包含在合并中的最小输入转录本长度(默认: 50)
- -c <min_cov>: 包含在合并中的最小输入转录本覆盖度(默认: 0)
- -F <min_fpkm>: 包含在合并中的最小输入转录本FPKM(默认: 1.0)
- -T <min_tpm>: 包含在合并中的最小输入转录本TPM(默认: 1.0)
- -f <min_iso>: 最小异构体分数(默认: 0.01)
- -g <gap_len>: 合并在一起的转录本之间的间隙(默认: 250)
- -i: 保留具有保留内含子的合并转录本;默认情况下,除非有强有力的证据,否则这些转录本不会被保留
- -l <label>: 输出转录本的名称前缀(默认: MSTRG)

输入文件
StringTie的输入是按坐标(基因组位置)排序的SAM、BAM或CRAM文件。该文件应包含剪接的RNA-seq读取对齐,例如由TopHat或HISAT2生成的对齐。TopHat输出已经排序。其他对齐生成的未排序的SAM或BAM文件应使用samtools程序进行排序:

samtools sort -o alns.sorted.bam alns.sam
上述命令生成的文件(alns.sorted.bam)可以用作StringTie的输入。

任何具有剪接对齐的SAM记录(即跨越至少一个连接点的读取对齐)都应具有XS标签以指示转录链,即产生此读取的RNA的基因组链。TopHat和HISAT2对齐已经包含此标签,但如果您使用其他读取映射器,则应检查是否也为剪接对齐记录包括此标签。STAR对齐器应使用选项--outSAMstrandField intronMotif运行以生成此标签。

对于使用minimap2和-ax splice选项对齐的长RNA-seq读取,不需要XS标签。minimap2将ts标签添加到剪接对齐以指示转录链(尽管与XS标签方式不同),如果XS标签丢失,StringTie也可以识别ts标签。因此,使用minimap2生成的长读取剪接对齐也可以由StringTie组装(使用-L选项或作为--mix选项的第二个输入文件)。

如上所述,对齐必须按坐标排序,然后才能用作StringTie的输入。

使用CRAM文件作为输入时,可以使用--ref(--cram-ref)选项提供原始参考基因组序列,作为多FASTA文件,其中包含对齐读取时使用的相同染色体序列。这是可选的,但建议这样做,因为StringTie可以更好地估计某些剪接对齐的质量(例如注意到连接点周围的错配),并且在某些CRAM文件的情况下,只有提供参考基因组序列时才能检索这些数据。

参考转录本(指南)
可以使用-G选项向StringTie提供GTF或GFF3格式的参考注释文件,该文件可以用作组装过程的“指南”。

使用-e选项(即仅表达估计)时,此选项是必需的,在这种情况下,StringTie不会尝试组装读取对齐,而是仅估计此文件中提供的所有转录本的表达水平。

注意,当读取完全覆盖参考转录本时,参考注释文件中的原始转录本ID将显示在StringTie的输出记录中的reference_id GTF属性中。缺少此reference_id属性的输出转录本可以视为相对于给定参考注释的“新”转录结构。
运行StringTie
默认用法的通用命令行格式如下:

stringtie [-o <output.gtf>] [other_options] <read_alignments.bam>

程序的主要输入(<read_alignments.bam>)必须是按基因组位置排序的SAM、BAM或CRAM文件(例如由TopHat生成的accepted_hits.bam文件,或用samtools sort排序的HISAT2输出)。

主要输出是一个GTF文件,其中包含StringTie从读取对齐数据中组装的转录结构。输出文件的名称应使用-o选项指定。如果不使用此-o选项,组装的转录本的输出GTF将打印到标准输出(并且可以使用>输出重定向操作符捕获到文件中)。
05 参考文献

Shumate A, Wong B, Pertea G, Pertea M Improved transcriptome assembly using a hybrid of long and short reads with StringTiePLOS Computational Biology 18, 6 (2022), doi.org/10.1371/journal.pcbi.1009730

Kovaka S, Zimin AV, Pertea GM, Razaghi R, Salzberg SL, Pertea M Transcriptome assembly from long-read RNA-seq alignments with StringTie2Genome Biology 20, 278 (2019), doi:10.1186/s13059-019-1910-1

Pertea M, Kim D, Pertea GM, Leek JT, Salzberg SL Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and BallgownNature Protocols 11, 1650-1667 (2016), doi:10.1038/nprot.2016.095

Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT & Salzberg SL StringTie enables improved reconstruction of a transcriptome from RNA-seq readsNature Biotechnology 2015, doi:10.1038/nbt.3122

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值