欢迎关注"生信修炼手册"!
二代测序平台产生的数据通常用fastq格式进行存储,fastq 存储了我们最关心的序列和碱基质量的信息。就测序而言,这样的信息当然是足够了。但是对于分析而言,还缺少了一点信息。
给你一个fastq文件,你最多可以看出来样本名,测序平台,测序读长等基本信息,如果想知道测序类型(是WES, WGS 还是RNA-seq), 样本的采样信息,样本的分组信息,这些信息从fastq 文件是无法得到的。这些实验相关的数据,称之为metadata
。
uBAM
和FASTQ
相比,处理存储了序列和碱基质量信息之外,还可以存储metadata
信息。
GATK4
中,数据预处理部分的示意图如下
可以看到,对于原始数据,有两种格式,一种就是我们常见的FASTQ
; 另外一种就是uBAM
。官方更加推荐使用uBAM
格式。
如何从FASTQ
转换得到uBAM
格式呢?我们需要借助picatd
工具。picard
提供了一个FastqToSam
功能,可以将序列转换成ubam
格式。