Bowtie2安装与使用-bowtie2-2.5.2(bioinfomatics tools-011)

29 篇文章 1 订阅
15 篇文章 1 订阅
01 背景

Bowtie 是一个超快速、内存高效的短读取比对器,适用于来自下一代测序仪的短DNA序列(读取)。序列比对统计,一般是基因组会贴使用,转录组用的较少。它和STAR相比性能差不多(后续出STAR)。

02 参考
https://sourceforge.net/projects/bowtie-bio    #官网
https://sourceforge.net/projects/bowtie-bio/files/bowtie2/
03 安装
##下载
wget -c https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.5.2/bowtie2-2.5.2-linux-x86_64.zip
#解压
unzip bowtie2-2.5.2-linux-x86_64.zip
04 使用
4.1 bowtie
./bowtie2 -h
  bowtie2 [选项]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]

  <bt2-idx>  索引文件名前缀(不包括末尾的 .X.bt2)。
             注意: Bowtie 1 和 Bowtie 2 的索引不兼容。
  <m1>       带有 #1 伴侣的文件,与 <m2> 中的文件配对。
             可以是 gzip 压缩的(扩展名: .gz)或 bzip2 压缩的(扩展名: .bz2)。
  <m2>       带有 #2 伴侣的文件,与 <m1> 中的文件配对。
             可以是 gzip 压缩的(扩展名: .gz)或 bzip2 压缩的(扩展名: .bz2)。
  <r>        带有未配对读取的文件。
             可以是 gzip 压缩的(扩展名: .gz)或 bzip2 压缩的(扩展名: .bz2)。
  <i>        带有交错配对端 FASTQ/FASTA 读取的文件
             可以是 gzip 压缩的(扩展名: .gz)或 bzip2 压缩的(扩展名: .bz2)。
  <bam>      文件是按读取名称排序的未对齐 BAM。
  <sam>      SAM 输出的文件(默认为: stdout)

  <m1>、<m2>、<r> 可以是逗号分隔的列表(无空格)并且可以多次指定。例如:'-U file1.fq,file2.fq -U file3.fq'。

选项(默认值在括号中):

 输入:
  -q                 查询输入文件为 FASTQ .fq/.fastq(默认)
  --tab5             查询输入文件为 TAB5 .tab5
  --tab6             查询输入文件为 TAB6 .tab6
  --qseq             查询输入文件为 Illumina 的 qseq 格式
  -f                 查询输入文件为 (多-)FASTA .fa/.mfa
  -r                 查询输入文件为一行一个序列的原始数据
  -F k:<int>,i:<int> 查询输入文件为从 FASTA 文件 <s> 中提取的子字符串(k-mer)形成的连续 FASTA,
                     并在参考序列的偏移量 1, 1+i, 1+2i ... 结束处进行对齐
  -c                 <m1>、<m2>、<r> 是序列本身,而不是文件
  -s/--skip <int>    跳过输入中的前 <int> 个读取/对(无)
  -u/--upto <int>    在第一个 <int> 个读取/对后停止(无限制)
  -5/--trim5 <int>   从读取的 5'/左端修剪 <int> 个碱基(0)
  -3/--trim3 <int>   从读取的 3'/右端修剪 <int> 个碱基(0)
  --trim-to [3:|5:]<int> 修剪超过 <int> 个碱基的读取,从 3' 或 5' 端开始
                     如果未指定读取端,则默认为 3(0)
  --phred33          质量值为 Phred+33(默认)
  --phred64          质量值为 Phred+64
  --int-quals        以空格分隔的整数编码的质量值

 预设:                 等同于:
  对于 --end-to-end:
   --very-fast            -D 5 -R 1 -N 0 -L 

22 -i S,0,2.50
   --fast                 -D 10 -R 2 -N 0 -L 22 -i S,0,2.50
   --sensitive            -D 15 -R 2 -N 0 -L 22 -i S,1,1.15(默认)
   --very-sensitive       -D 20 -R 3 -N 0 -L 20 -i S,1,0.50

  对于 --local:
   --very-fast-local      -D 5 -R 1 -N 0 -L 25 -i S,1,2.00
   --fast-local           -D 10 -R 2 -N 0 -L 22 -i S,1,1.75
   --sensitive-local      -D 15 -R 2 -N 0 -L 20 -i S,1,0.75(默认)
   --very-sensitive-local -D 20 -R 3 -N 0 -L 20 -i S,1,0.50

 对齐:
  -N <int>           种子对齐中的最大错配数;可以是 0 或 1(0)
  -L <int>           种子子字符串的长度;必须大于 3,小于 32(22)
  -i <func>          种子子字符串间隔与读取长度的关系(S,1,1.15)
  --n-ceil <func>    对齐中允许的最大非 A/C/G/T 数的函数(L,0,0.15)
  --dpad <int>       在 DP 表的两侧包含 <int> 个额外的参考字符(15)
  --gbar <int>       禁止在读取极端的 <int> 个核苷酸内出现间隙(4)
  --ignore-quals     将所有质量值视为 Phred 刻度上的 30(关闭)
  --nofw             不对齐读取的正向(原始)版本(关闭)
  --norc             不对齐读取的反向互补版本(关闭)
  --no-1mm-upfront   在尝试扫描最佳种子对齐之前不允许 1 个错配对齐
  --end-to-end       整个读取必须对齐;无剪切(开启)
   或
  --local            局部对齐;端部可能被软剪切(关闭)

 计分:
  --ma <int>         匹配奖励(对于 --end-to-end 为 0,对于 --local 为 2)
  --mp <int>         错配的最大惩罚;质量低 = 惩罚低(6)
  --np <int>         读取/参考中非 A/C/G/T 的惩罚(1)
  --rdg <int>,<int>  读取间隙开启、扩展惩罚(5,3)
  --rfg <int>,<int>  参考间隙开启、扩展惩罚(5,3)
  --score-min <func> 接受的最小对齐分数与读取长度的关系
                     (对于局部对齐为 G,20,8,对于端到端为 L,-0.6,-0.6)

 报告:
  (默认)          查找多个对齐,报告最佳对齐,并附上 MAPQ
   或
  -k <int>           每个读取报告最多 <int> 个对齐;MAPQ 无意义
   或
  -a/--all           报告所有对齐;非常慢,MAPQ 无意义

 努力:
  -D <int>           在连续 <int> 次扩展失败后放弃(15)
  -R <int>           对于具有重复种子的读取,尝试 <int> 组种子(2)

 成对端:
  -I/--minins <int> 

 最小片段长度(0)
  -X/--maxins <int>  最大片段长度(500)
  --fr/--rf/--ff     -1, -2 伴侣以 fw/rev, rev/fw, fw/fw 对齐(--fr)
  --no-mixed         抑制成对读取的未配对对齐
  --no-discordant    抑制成对读取的不协调对齐
  --dovetail         伴侣相互延伸时一致
  --no-contain       一个伴侣对齐包含另一个时不一致
  --no-overlap       伴侣有任何重叠时不一致

 BAM:
  --align-paired-reads
                     Bowtie2 默认尝试对齐未配对的 BAM 读取。
                     使用此选项改为对齐成对端读取。
  --preserve-tags    通过将原始 BAM 记录中的标签附加到相应的 SAM 输出末尾来保留标签。

 输出:
  -t/--time          打印搜索阶段所需的实际时间
  --un <path>        将未对齐的未配对读取写入 <path>
  --al <path>        将至少对齐一次的未配对读取写入 <path>
  --un-conc <path>   将未协调对齐的对写入 <path>
  --al-conc <path>   将至少协调对齐一次的对写入 <path>
    (注意:对于 --un、--al、--un-conc 或 --al-conc,将 '-gz' 添加到选项名称中,例如
    --un-gz <path>,以 gzip 压缩输出,或添加 '-bz2' 以 bzip2 压缩输出。)
  --quiet            除了严重错误外,不向 stderr 打印任何内容
  --met-file <path>  将指标发送到 <path> 处的文件(关闭)
  --met-stderr       将指标发送到 stderr(关闭)
  --met <int>        每 <int> 秒报告内部计数器和指标(1)
  --no-unal          抑制未对齐读取的 SAM 记录
  --no-head          抑制标题行,即以 @ 开头的行
  --no-sq            抑制 @SQ 标题行
  --rg-id <text>     设置读取组 id,在 @RG 行和 RG:Z: 可选字段中反映
  --rg <text>        向 SAM 标题的 @RG 行添加 <text>("lab:value")。
                     注意:仅在设置 --rg-id 时打印 @RG 行。
  --omit-sec-seq     在次级对齐中,SEQ 和 QUAL 字段使用 '*'。
  --sam-no-qname-trunc
                     抑制在第一个空白处截断读取名的标准行为
                     以产生非标准的 SAM,但代价是生成非标准 SAM。
  --xeq              使用 '='/'X' 而不是 'M' 来指定 SAM 记录中的匹配/错配。
  --soft-clipped-unmapped-tlen
                     报告 TLEN 时排除软剪切的碱基
  --sam-append-comment
                     将 FASTA/FASTQ 注释附加到 SAM 记录中

 性能:
  -p/--threads <int> 启动的对齐线程数(1)
  --reorder          强制 SAM 输出顺序与输入读取的顺序匹配
  --mm               使用内存映射 I/O 进行索引;许多 'bowtie' 可以共享

 其他:
  --qc-filter        根据 QSEQ 过滤器过滤掉不良读取
  --seed <int>       随机数生成器的种子(0)
  --non-deterministic
                     任意种子随机数生成器,而不是使用读取属性
  --version          打印版本信息并退出
  -h/--help          打印此使用信息
4.2 bowtie2-build
./bowtie2-build -h
用法:bowtie2-build [选项]* <reference_in> <bt2_index_base>
    reference_in            以逗号分隔的含参考序列的文件列表
    bt2_index_base          将 bt2 数据写入此目录/基本名的文件中
*** Bowtie 2 索引将与 Bowtie v1.2.3 及更高版本兼容。***
选项:
    -f                      参考文件为 Fasta 格式(默认)
    -c                      命令行中给出的参考序列(作为 <reference_in>)
    --large-index           强制生成的索引为“大”索引,即使参考序列少于 40 亿核苷酸
    --debug                 使用调试二进制文件;更慢,启用断言
    --sanitized             使用已清理的二进制文件;更慢,使用 ASan 和/或 UBSan
    --verbose               记录发出的命令
    -a/--noauto             禁用自动的 -p/--bmax/--dcv 内存拟合
    -p/--packed             内部使用压缩字符串;更慢,内存占用更少
    --bmax <int>            块状后缀数组构建器的最大桶大小
    --bmaxdivn <int>        最大桶大小作为参考长度的除数(默认:4)
    --dcv <int>             块状差分覆盖周期(默认:1024)
    --nodc                  禁用差分覆盖(算法变为二次方)
    -r/--noref              不构建 .3/.4 索引文件
    -3/--justref            仅构建 .3/.4 索引文件
    -o/--offrate <int>      每 2^<int> 个 BWT 字符抽样一次 SA(默认:5)
    -t/--ftabchars <int>    初始查找中消耗的字符数(默认:10)
    --threads <int>         线程数
    --seed <int>            随机数生成器的种子
    -q/--quiet              详细输出(用于调试)
    --h/--help              打印此消息并退出
    --version               打印版本信息并退出
05 常用命令行

bowtie一般为RSEM内置程序,它和STAR一样均承担比对计算的任务。常用bowtie2-build,和bowtie2两个程序。

1 参考基因组建立索引

bowtie2-build -f XX.fasta --threads 10 bwXX
#-f:指明index的参考fasta文件
#<bwXX>:生成的index文件的前缀
#-xs输出索引 

2 序列比对
bowtie2 -x bwXX -1 read1.fq.gz -2 read2.fq.gz -S read_bwXX.sam -p 10

#-x:由bowtie2-build所生成的索引文件的前缀
#-1:双端测序的文件1
#-2:双端测序的文件2
#-U:单端测序的文件,可以为多个文件,用逗号隔开  很少用
#-S:所生成的SAM格式的文件前缀
#-p:线程数

具体详见上一小节
06 参考文献

Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2. Nat Methods. 2012 Mar 4;9(4):357-9. doi: 10.1038/nmeth.1923. PMID: 22388286; PMCID: PMC3322381.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值