Bowtie比对
- tophat和Bowie是同一个作者,tophat调用了Bowtie比对。
- Bowtie1针对50bp以下的reads比较好,但不适合长度大于1k的片段,不支持空位比对,不支持压缩格式。
- Bowtie2针对50bp以上的reads比较好
Bowtie比对也是需要先对目标建立索引才能比对,建立索引需要使用Bowtie2的build工具。当建立完索引之后再比对即可,比对后可能生成sam文件。
- Bowtie软件和参数的使用可以查看教程。
sam文件格式
- 短序列比对需要记录的信息,如是否错配等
- 注释信息
- sam文件每一行的信息
- 比对质量,值越高越好,第5列
- 每行第二列
- 每行的第六列
- 每行第七列,指的是mate序列所在参考序列上的名称
- 每行第八列,mate序列在参考序列上的位置
- 空溢出片段的长度,当mate序列在本序列上有时,则该值为负值。
- 第10列为read序列,
- ASCII码合适的质量值(?)
- 通过第一列,第10列,第11列可以获取比对上的read序列
- 第12列比对的具体细节
samtools工具
- 针对sam或bam文件进行处理
- 本课程版本(0.1.19)
view sam转bam
sort 排序
merge 合并多个sam
depth 计算覆盖深度,要先sort
samtools faidx ref.fna 对目标序列建立索引
index 也是排序吗???
tview 需要先sort再index
mphilup 将每个位点比对细节信息整理出来
tophat比对工具
- 与bowtie同一个作者,Bowtie比对不了的发生可变剪接的读段。而tophat可以比对。
- 推荐下载编译好的版本,解压缩之后即可使用
-r/–mate-iner-dist 为成对的reads之间的平均inner距离,默认50
–library-type 选择文库的类型,如 链特异性文库
-G选项,输入的是GTF、GFF格式文件;tophat先拿到的是转录子,然后用bowtie将reads比对到提取的转录子数据中,不能比对到reads再比对到genome,比对上的reads再打断,转变为到genomics mapping,再融合新的mapping和junction作为最后的输出。(GTF或GFF的第一列注意和bowtie的参考序列要一致)
–fusion-search 保存融合信息(不太懂,用到再查吧)
-g/–max-multihits 保留结果的数目,即一个reads可能有多种比对结果,这里最后保留前多少个结果。默认为20
–mate-std-dev 验证距离的标准差
-a/–min-anchor reads的最小锚定长度,最小值为3
-m/–splice-mismatches 对于一个剪接比对,其在锚定区域能出现的最大不匹配碱基数目
-i/–min-intron-length 最小的内含子长度
–max-insert-length 最大的插入片段长度,默认为3
-p/ 线程数
–no-sort-bam 输出的bam文件不进行排序
插入片段大小为200bp,reads读长为70bp;那么reads的距离是200-70-70=60bp。
比对案例
链接:https://study.163.com/course/courseLearn.htm?courseId=1209594947#/learn/video?lessonId=1280040963&courseId=1209594947
- 通常需要的是reads唯一比对上的情况,在该行标志位NH:i:1.
- 但是由于存在可变剪接,一个reads通常比对到基因组的不同位置,所以NH:i:多,仍然是需要的样本
- 还可以设置比对结果的数目和根据比对结果的得分进行计算。