欢迎关注"生信修炼手册"!
GATK4 对于体细胞突变和生殖细胞突变的检测分别给出了对应的pipeline:
Germline SNPs+Indels
Somatic SNVs + Indels
本篇主要关注生殖细胞突变的分析流程Germline SNPs+Indels
。示意图如下:
图中红色方框部分的从Analysis-Ready Bam 到,主要包括以下4步
HaplotyperCaller in GVCF mode
ImportGenomicsDB Consolidate GVCFs
GenotypeGVCFs
Filter Variants by Variabt Recalibration
官网给出了6套用于参考的pipeline
主要分析步骤都差不多,这里我选择第4个通用的流程 ,网址如下
https://github.com/gatk-workflows/gatk4-germline-snps-indels
1. HaplotyperCaller in GVCF mode
对于每个样本,采用HaplotyperCaller
计算突变位点,命令如下
gatk --java-options "-Xmx6G -XX:GCTimeLimit=50 -XX:GCHeapFreeLimit=10" \
HaplotypeCaller \
-R ${ref_fasta} \
-I ${input_bam} \
-L ${interval_list} \
-O ${output_filename} \
-contamination 0 -ERC GVCF
ref_fasta
代表参考基因组的fasta文件;input_bam
代表预处理阶段产生的 bam文件;interval
代表interval list文件,如果指定这个参数,只会输出指定区域的突变信息。对于全基因组测序,不需要这个参数,对于外显子和目的区域捕获测序, 则需要这个参数;