在GATK最佳实践检测变异过程当中,当我们在调用 HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢?
GVCF和VCF的异同
首先,这两者都是 VCF 文件,都由HEADER和RECORDS组成。
不同之处在于GVCF文件会记录更多的信息,这里更多的信息是指未突变的位点的覆盖情况。从下面的图我们可以直观地看出两者的区别:
可以看到,GVCF文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种GVCF文件记录非突变位点的时候,以块的形式来记录,而后一种GVCF文件则是对非突变和突变位点一视同仁,前一种方式是为了有效地压缩文件的行数和大小,对后续的分析没有影响,因此这里推荐使用前一种GVCF文件。
通常,GVCF经过FilterMutectCalls 相同的过滤条件过滤后,其结果与VCF的PASS的变异相同。
为什么要使用GVCF
为什么要使用GVCF文件而不是VCF文件呢?这里主要的原因在于多个样本的VCF文件进行合并的时候,需要区分./.和0/0的情况。
./.是未检出的基因型,而0/0是未突变的基因型,如果仅使用普通的VCF文件进行合并,那么就无法区分这两种情况,进而对合并结果产生偏差。
实际上,我们也可以直接将GVCF文件和VCF文件使用bcftools merge进行merge,但是这样拿到的结果会有偏差,因为VCF文件没有未突变的位点的情况。
总的来说,GVCF的好处是:能更方便把一群样本的GVCF联合起来,以便进行下一步分析,提高分析效率。
VCF文件的FORMAT内容详解
QUAL: 指的是caller正确地识别该变异位点的可能性,属于phred-scale quality score的一个应用。
GT,GQ,PL三者的关系:
GT是指该位点最有可能的基因型。
GQ是该位点第二有可能的基因型的PL值。
PL是不同基因型对应的标准化的可能性。
对于二倍体生物来说,PL有三个值,分别对应0/0,0/1,1/1。最有可能的基因型的PL值为0,第二小的是第二个可能。GQ反映的是第二个小的基因型的PL值,如果该值超过99,则定位99,因为超过了99,其几乎不能威胁第一个可能的地位。
计算方法:
PL(0/1) = 0
(the normalized value that corresponds to a likelihood of 1.0) as is always the case for the assigned allele,
but the next PL is PL(1/1) = 26
(which corresponds to 10^(-2.6), or 0.0025).
QUAL和GQ的区别:
总结
在处理单样本时:可以直接使用VCF文件
在处理多样本时:由于使用普通的vcf文件进行合并,无法区分./.和0/0的情况(./.是未检出的基因型,而0/0是未突变的基因型),会使结果出现偏差。所以,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件之后在下一步对GVCF文件进行合并。
参考文献
简书:https://www.jianshu.com/p/35935e257ccf
CSDN:https://www.cnblogs.com/timeisbiggestboss/p/9134733.html
关于简说基因
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
生信分析
我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。
生信培训
简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信。
联系方式
QQ交流群(免费):925694514
微信交流群(免费):加微信好友,注明“Galaxy交流群”
客服微信:usegalaxy