RNAseq数据分析--read比对

Bowtie比对

  • tophat和Bowie是同一个作者,tophat调用了Bowtie比对。
  • Bowtie1针对50bp以下的reads比较好,但不适合长度大于1k的片段,不支持空位比对,不支持压缩格式。
  • Bowtie2针对50bp以上的reads比较好

Bowtie比对也是需要先对目标建立索引才能比对,建立索引需要使用Bowtie2的build工具。当建立完索引之后再比对即可,比对后可能生成sam文件。

  • Bowtie软件和参数的使用可以查看教程。

sam文件格式

001

  • 短序列比对需要记录的信息,如是否错配等
    002
  • 注释信息
    003
  • sam文件每一行的信息
  • 比对质量,值越高越好,第5列
    004
  • 每行第二列
    005005入图片描述
  • 每行的第六列
    006
  • 每行第七列,指的是mate序列所在参考序列上的名称
  • 每行第八列,mate序列在参考序列上的位置
  • 溢出片段的长度,当mate序列在本序列上有时,则该值为负值。
  • 第10列为read序列,
  • ASCII码合适的质量值(?)
  • 通过第一列,第10列,第11列可以获取比对上的read序列
  • 第12列比对的具体细节
    008

samtools工具

  • 针对sam或bam文件进行处理
  • 本课程版本(0.1.19)

view sam转bam
sort 排序
merge 合并多个sam
depth 计算覆盖深度,要先sort
samtools faidx ref.fna 对目标序列建立索引
index 也是排序吗???
tview 需要先sort再index
mphilup 将每个位点比对细节信息整理出来

tophat比对工具

  • 与bowtie同一个作者,Bowtie比对不了的发生可变剪接的读段。而tophat可以比对。
  • 推荐下载编译好的版本,解压缩之后即可使用

-r/–mate-iner-dist 为成对的reads之间的平均inner距离,默认50

–library-type 选择文库的类型,如 链特异性文库
-G选项,输入的是GTF、GFF格式文件;tophat先拿到的是转录子,然后用bowtie将reads比对到提取的转录子数据中,不能比对到reads再比对到genome,比对上的reads再打断,转变为到genomics mapping,再融合新的mapping和junction作为最后的输出。(GTF或GFF的第一列注意和bowtie的参考序列要一致)
–fusion-search 保存融合信息(不太懂,用到再查吧)
-g/–max-multihits 保留结果的数目,即一个reads可能有多种比对结果,这里最后保留前多少个结果。默认为20
–mate-std-dev 验证距离的标准差
-a/–min-anchor reads的最小锚定长度,最小值为3
-m/–splice-mismatches 对于一个剪接比对,其在锚定区域能出现的最大不匹配碱基数目
-i/–min-intron-length 最小的内含子长度
–max-insert-length 最大的插入片段长度,默认为3
-p/ 线程数
–no-sort-bam 输出的bam文件不进行排序

插入片段大小为200bp,reads读长为70bp;那么reads的距离是200-70-70=60bp。

比对案例

链接:https://study.163.com/course/courseLearn.htm?courseId=1209594947#/learn/video?lessonId=1280040963&courseId=1209594947

  • 通常需要的是reads唯一比对上的情况,在该行标志位NH:i:1.
  • 但是由于存在可变剪接,一个reads通常比对到基因组的不同位置,所以NH:i:多,仍然是需要的样本
  • 还可以设置比对结果的数目和根据比对结果的得分进行计算。
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值