检测和估计样本间 DNA 污染-VerifyBamID2
VerifyBamID2
动机:检测和估计样本间 DNA 污染成为确保高质量序列读取和可靠下游分析的关键质量评估步骤。在许多现有模型中,等位基因频率通常用于计算先验基因型概率。缺乏对等位基因频率的准确分配可能导致低估污染水平。因此,我们提出了这种与祖先无关的 DNA 污染估计方法。
结果:我们通过模拟从 1% 到 20% 的污染水平并比较从不同方法获得的污染估计,将我们的方法应用于 1000 个基因组数据集。当使用合并的等位基因频率时,而不是特定于群体的等位基因频率,我们观察到 CEU、YRI、FIN 和 CHS 群体的污染水平分别被低估了 20%、40%、51% 和 73%。使用我们的新方法,低估偏差减少到 2-5%。
输入文件:对齐的NGS序列文件(BAM或CRAM);标记相关文件(基因型矩阵的SVD结果,在资源目录中提供)
结果文件
“.selfSM” which shares the same format as VB1(https://genome.sph.umich.edu/wiki/VerifyBamID), and the key information FREEMIX indicates the estimated contamination level.
“.Ancestry” which contains the PC coordinates for both intended sample and contaminating sample, with each row being one PC.
简单的讲,只需要看后缀‘selfSM’ 文件的 FEEMIX 列的值即代表DNA污染情况,数值越大代表污染程度越高。
污染检测能力测试
使用 NA12878 和 NA24684 两个标准品对 VerifyBamID2 样品间DNA污染检测能力进行测试,测试结果如下:
Threshold
AnVIL 数据处理工具中提到了 VerifyBamID2 软件进行 QC ,设定的阈值为 <0.01
制作自定义资源文件
提供 VCF 和基因组 FASTA 文件即可制作自己的资源文件进行鉴定污染,这个方法适合于靶向测序数据,因为检测的突变位点比较少,不适合使用作者提供的 100k 和 10k 突变位点的资源文件。
- 提取vcf
建议从 1000g phase3 数据库中提取。
for i in {1..20} do bcftools view -v snps -O z -R SelectedSite.vcf ALL.chr${i}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz > result.chr${i}.ReferencePanel.vcf.gz done
SelectedSite.vcf文件格式:
1 2159941
1 2235656
1 2235662
1 2235672
1 2238560
1 2238623
1000g phase3 数据下载地址:https://hgdownload.cse.ucsc.edu/gbdb/hg19/1000Genomes/phase3/
2. 合并vcf
建议使用 GATK 的 MergeVcfs 命令进行合并。
/gpfs1/BOKE/Software/GATK/gatk-4.3.0.0/gatk MergeVcfs \
-I result.chr1.ReferencePanel.vcf.gz \
-I result.chr2.ReferencePanel.vcf.gz \
-I result.chr3.ReferencePanel.vcf.gz \
-I result.chr4.ReferencePanel.vcf.gz \
-I result.chr5.ReferencePanel.vcf.gz \
-I result.chr6.ReferencePanel.vcf.gz \
-I result.chr7.ReferencePanel.vcf.gz \
-I result.chr8.ReferencePanel.vcf.gz \
-I result.chr9.ReferencePanel.vcf.gz \
-I result.chr10.ReferencePanel.vcf.gz \
-I result.chr11.ReferencePanel.vcf.gz \
-I result.chr12.ReferencePanel.vcf.gz \
-I result.chr13.ReferencePanel.vcf.gz \
-I result.chr14.ReferencePanel.vcf.gz \
-I result.chr15.ReferencePanel.vcf.gz \
-I result.chr16.ReferencePanel.vcf.gz \
-I result.chr17.ReferencePanel.vcf.gz \
-I result.chr18.ReferencePanel.vcf.gz \
-I result.chr19.ReferencePanel.vcf.gz \
-I result.chr20.ReferencePanel.vcf.gz \
-O ./result.ALL.ReferencePanel.vcf.gz
- 制作资源文件
已经准备好筛选的 vcf 文件以及参考基因组文件,下面就是制作资源文件步骤:
VerifyBamID --RefVCF result.ALL.ReferencePanel.vcf.gz --Reference ./Homo_sapiens_assembly19.fasta
完成后会产生如下文件:
result.ALL.ReferencePanel.vcf.gz.UD,
result.ALL.ReferencePanel.vcf.gz.mu,
result.ALL.ReferencePanel.vcf.gz.bed