SAM
1.什么是SAM格式?
SAM格式用于存储基于参考序列的比对序列,SAM(Sequence Alignment Map)是序列比对映射的首字母缩写。
说明SAM是带有比对信息的序列文件(告诉你reads在染色体中的位置)。
2.SAM包含什么内容?
(1)标头注释部分(header section)
header每一行以@开头。
@RG开头是Read group信息这是在做后续数据分析时专门用于区分不同样本的重要信息。
它的重要性还体现在,如果原来样本的测序深度比较深,一般会按照不同的lane分开比对,
最后再合并在一起,那么这个时候你会在这个BAM文件中看到有多个RG,里面记录了不同
的lane,甚至测序文库的信息,唯一不变的一定是SM的sample信息,这样合并后才能正确处理。
(2)比对结果部分(alignment section)
3.经过专门的比对软件:BWA、BOWTIE2等,SAM文件格式是怎样的?
(1)标头:以@开头,可有可无的。用不同tag表示不同的信息,主要有:
@HD:表示参考基因组的排列情况
@SQ:参考序列说明;LN:长度
@PG:使用的比对程序说明
(2)第二部分:联配必要信息,每一行有12行,通过Tab键分割。
第一列:rname(Qname)即为fq对应的read ID。这一列代表read的名字(比对片段的编号)
第二列:FLAG 比对信息位。
读懂flag的诀窍:
想要读懂他的一个关键点是将flag值转换为一串由0,1组成的二进制码,这一串二进制数中的每一个
位(bit)都代表一个特定的信息,他一共有12位,所以一般会用一个16位的整数来代表,这个整数的
值就是由12个0或1组合计算得出的。因此他的数值范围在0~2^12(2048)
举一个例子,FLAG=77=000001001101(左边补5个0)=1+4+8+64
FLAG包含信息:PE reads、read比对不上参考序列,它的配对read也比对不上,它是read1
第三、四列:position 分别是RNAME(参考序列染色体名)和POS(比对位置,从对应染色体的第1位开始往后计算)
第五列:MAPQ(mapping quality) 比对质量值
这个值告诉我们这个read比对到参考序列上这个位置的可靠程度。相当于Q
第六列:CIGAR 比对信息(雪茄字符串)
它用数字和几个字符的组合形式记录了read比对到参考序列上的细节信息,读起来比FLAG直观友好很多,只是
记录的信息不同。例子:33S117M,意思是在比对的时候这条read开头的33bp被跳过了(s),紧接其后的117bp
则比对上参考序列(M)。这里的S意思都是soft clip。
CIGAR的标记字符有:MIDNSHP=XB
第七、八、九列:Mate information
RNEXT:配对read所比对到的染色体(pe才有)
PNEXT:配对read所比对到的位置(pe才有)
TLEN:插入片段的长度
第十、十一列:
SEQ:read序列
QUAL:read质量值
这两列相当于fastq的二四行
第十二列:metadata 元信息