GATK最佳实践变异检测过程中的GVCF和VCF

在GATK最佳实践检测变异过程当中,当我们在调用 HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢?

GVCF和VCF的异同

首先,这两者都是 VCF 文件,都由HEADER和RECORDS组成。

1398d569021b832b46d048dbf0b2deab.png

不同之处在于GVCF文件会记录更多的信息,这里更多的信息是指未突变的位点的覆盖情况。从下面的图我们可以直观地看出两者的区别:

0a3b04e57a7eb13bc44938a9b7d9ce30.jpeg

可以看到,GVCF文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种GVCF文件记录非突变位点的时候,以块的形式来记录,而后一种GVCF文件则是对非突变和突变位点一视同仁,前一种方式是为了有效地压缩文件的行数和大小,对后续的分析没有影响,因此这里推荐使用前一种GVCF文件。

通常,GVCF经过FilterMutectCalls 相同的过滤条件过滤后,其结果与VCF的PASS的变异相同。

为什么要使用GVCF

为什么要使用GVCF文件而不是VCF文件呢?这里主要的原因在于多个样本的VCF文件进行合并的时候,需要区分./.和0/0的情况。

./.是未检出的基因型,而0/0是未突变的基因型,如果仅使用普通的VCF文件进行合并,那么就无法区分这两种情况,进而对合并结果产生偏差。

实际上,我们也可以直接将GVCF文件和VCF文件使用bcftools merge进行merge,但是这样拿到的结果会有偏差,因为VCF文件没有未突变的位点的情况。

总的来说,GVCF的好处是:能更方便把一群样本的GVCF联合起来,以便进行下一步分析,提高分析效率。

VCF文件的FORMAT内容详解

QUAL: 指的是caller正确地识别该变异位点的可能性,属于phred-scale quality score的一个应用。

GT,GQ,PL三者的关系:

GT是指该位点最有可能的基因型。

GQ是该位点第二有可能的基因型的PL值。

PL是不同基因型对应的标准化的可能性。

对于二倍体生物来说,PL有三个值,分别对应0/0,0/1,1/1。最有可能的基因型的PL值为0,第二小的是第二个可能。GQ反映的是第二个小的基因型的PL值,如果该值超过99,则定位99,因为超过了99,其几乎不能威胁第一个可能的地位。

计算方法:

PL(0/1) = 0 (the normalized value that corresponds to a likelihood of 1.0) as is always the case for the assigned allele,

but the next PL is PL(1/1) = 26 (which corresponds to 10^(-2.6), or 0.0025). 

QUAL和GQ的区别:

0d23c5fe88568c7b2661334fcff13d80.png

总结

  • 在处理单样本时:可以直接使用VCF文件

  • 在处理多样本时:由于使用普通的vcf文件进行合并,无法区分./.和0/0的情况(./.是未检出的基因型,而0/0是未突变的基因型),会使结果出现偏差。所以,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件之后在下一步对GVCF文件进行合并。

参考文献

简书:https://www.jianshu.com/p/35935e257ccf

CSDN:https://www.cnblogs.com/timeisbiggestboss/p/9134733.html

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 联系方式

    QQ交流群(免费):925694514

    微信交流群(免费):加微信好友,注明“Galaxy交流群”

    客服微信:usegalaxy

744d33f9f7e1f804e6bc306d81573439.png

GATK (Genome Analysis Toolkit) 是一种广泛使用的基因组分析工具包,它包含多种功能,包括将遗传数据转换成 GVCF (Genomics Variant Calling Format) 格式。GVCF 是一种轻量级的变异呼叫文件格式,它包含了每个位置的信息不确定性,而不是具体的变体。 当你对 BAM 文件(测序比对结果)运行 GATK 的 GenotypeGVCFs 工具时,它会处理先前通过其他工具(如 HaplotypeCaller 或 MuTect)产生的 GVCF,并创建一个最终的 VCF(Variant Call Format)文件。在这个过程,为了提高性能并加速后续的数据处理,特别是当处理大型数据集时,GATK 提供了一个名为 `Index` 或 `CreateSequenceDictionary` 的预处理步骤,用于: 1. **建立GVCF索引**(.tbi 文件):这是对GVCF文件的一个二进制索引,允许快速查找特定染色体、位置或ID。这个索引基于GVCF文件的内容生成,可以显著减少从GVCF检索信息的时间。 2. **序列字典**(.dict 文件):如果GVCF来自不同的来源,序列字典记录了参考基因组每个染色体的长度、ID等基本信息。这一步确保了所有GVCF片段都对应到正确的基因组位置上。 操作命令通常类似这样: ```bash java -jar GenomeAnalysisTK.jar \ -T IndexFeatureFile \ -R reference.fasta \ -I input.g.vcf \ -L targets.interval_list \ -o input.g.vcf.idx ``` 其 `-I` 指定了输入的GVCF文件,`-R` 是你的参考基因组FASTA文件,`-L` 则是选择感兴趣的区域(可选)。完成后,`.idx` 文件会被存储在与GVCF相同目录下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值