SAM和BAM格式详解

SAM

1.什么是SAM格式?

SAM格式用于存储基于参考序列的比对序列,SAM(Sequence Alignment Map)是序列比对映射的首字母缩写。

说明SAM是带有比对信息的序列文件(告诉你reads在染色体中的位置)。

2.SAM包含什么内容?

(1)标头注释部分(header section)

header每一行以@开头。

@RG开头是Read group信息这是在做后续数据分析时专门用于区分不同样本的重要信息。

它的重要性还体现在,如果原来样本的测序深度比较深,一般会按照不同的lane分开比对,

最后再合并在一起,那么这个时候你会在这个BAM文件中看到有多个RG,里面记录了不同

的lane,甚至测序文库的信息,唯一不变的一定是SM的sample信息,这样合并后才能正确处理。

(2)比对结果部分(alignment section)

 

3.经过专门的比对软件:BWA、BOWTIE2等,SAM文件格式是怎样的?

 

(1)标头:以@开头,可有可无的。用不同tag表示不同的信息,主要有:

@HD:表示参考基因组的排列情况

@SQ:参考序列说明;LN:长度

@PG:使用的比对程序说明

(2)第二部分:联配必要信息,每一行有12行,通过Tab键分割

第一列:rname(Qname)即为fq对应的read ID。这一列代表read的名字(比对片段的编号)

第二列:FLAG 比对信息位。

读懂flag的诀窍:

想要读懂他的一个关键点是将flag值转换为一串由0,1组成的二进制码,这一串二进制数中的每一个

位(bit)都代表一个特定的信息,他一共有12位,所以一般会用一个16位的整数来代表,这个整数的

值就是由12个0或1组合计算得出的。因此他的数值范围在0~2^12(2048)

举一个例子,FLAG=77=000001001101(左边补5个0)=1+4+8+64

FLAG包含信息:PE reads、read比对不上参考序列,它的配对read也比对不上,它是read1

第三、四列:position 分别是RNAME(参考序列染色体名)和POS(比对位置,从对应染色体的第1位开始往后计算)

第五列:MAPQ(mapping quality) 比对质量值

这个值告诉我们这个read比对到参考序列上这个位置的可靠程度。相当于Q

第六列:CIGAR 比对信息(雪茄字符串)

它用数字和几个字符的组合形式记录了read比对到参考序列上的细节信息,读起来比FLAG直观友好很多,只是

记录的信息不同。例子:33S117M,意思是在比对的时候这条read开头的33bp被跳过了(s),紧接其后的117bp

则比对上参考序列(M)。这里的S意思都是soft clip。

CIGAR的标记字符有:MIDNSHP=XB

第七、八、九列:Mate information

RNEXT:配对read所比对到的染色体(pe才有)

PNEXT:配对read所比对到的位置(pe才有)

TLEN:插入片段的长度

第十、十一列:

SEQ:read序列

QUAL:read质量值

这两列相当于fastq的二四行

第十二列:metadata 元信息

 

 

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值