检测和估计样本间 DNA 污染-VerifyBamID2

VerifyBamID2是一个用于检测和估计DNA污染的工具,尤其关注NGS序列数据。它通过比较不同方法的污染估计,显示使用群体合并的等位基因频率可能导致污染水平低估。文章提到,使用新方法可以显著减少这种偏差。此外,介绍了如何制作自定义资源文件,特别是对于靶向测序数据,从1000Genomes项目提取VCF文件并进行合并,以创建更精确的鉴定污染资源。
摘要由CSDN通过智能技术生成

VerifyBamID2

动机:检测和估计样本间 DNA 污染成为确保高质量序列读取和可靠下游分析的关键质量评估步骤。在许多现有模型中,等位基因频率通常用于计算先验基因型概率。缺乏对等位基因频率的准确分配可能导致低估污染水平。因此,我们提出了这种与祖先无关的 DNA 污染估计方法。
结果:我们通过模拟从 1% 到 20% 的污染水平并比较从不同方法获得的污染估计,将我们的方法应用于 1000 个基因组数据集。当使用合并的等位基因频率时,而不是特定于群体的等位基因频率,我们观察到 CEU、YRI、FIN 和 CHS 群体的污染水平分别被低估了 20%、40%、51% 和 73%。使用我们的新方法,低估偏差减少到 2-5%。
输入文件:对齐的NGS序列文件(BAM或CRAM);标记相关文件(基因型矩阵的SVD结果,在资源目录中提供)

结果文件

“.selfSM” which shares the same format as VB1(https://genome.sph.umich.edu/wiki/VerifyBamID), and the key information FREEMIX indicates the estimated contamination level.
“.Ancestry” which contains the PC coordinates for both intended sample and contaminating sample, with each row being one PC.
简单的讲,只需要看后缀‘selfSM’ 文件的 FEEMIX 列的值即代表DNA污染情况,数值越大代表污染程度越高。

污染检测能力测试

使用 NA12878 和 NA24684 两个标准品对 VerifyBamID2 样品间DNA污染检测能力进行测试,测试结果如下:
在这里插入图片描述

Threshold

AnVIL 数据处理工具中提到了 VerifyBamID2 软件进行 QC ,设定的阈值为 <0.01

制作自定义资源文件

提供 VCF 和基因组 FASTA 文件即可制作自己的资源文件进行鉴定污染,这个方法适合于靶向测序数据,因为检测的突变位点比较少,不适合使用作者提供的 100k 和 10k 突变位点的资源文件。

  1. 提取vcf
    建议从 1000g phase3 数据库中提取。
for i in {1..20} do bcftools view -v snps -O z -R SelectedSite.vcf ALL.chr${i}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz > result.chr${i}.ReferencePanel.vcf.gz done

SelectedSite.vcf文件格式:

1 2159941 
1 2235656 
1 2235662 
1 2235672 
1 2238560 
1 2238623

1000g phase3 数据下载地址:https://hgdownload.cse.ucsc.edu/gbdb/hg19/1000Genomes/phase3/
2. 合并vcf
建议使用 GATK 的 MergeVcfs 命令进行合并。

/gpfs1/BOKE/Software/GATK/gatk-4.3.0.0/gatk MergeVcfs \
-I result.chr1.ReferencePanel.vcf.gz \
-I result.chr2.ReferencePanel.vcf.gz \
-I result.chr3.ReferencePanel.vcf.gz \
-I result.chr4.ReferencePanel.vcf.gz \
-I result.chr5.ReferencePanel.vcf.gz \
-I result.chr6.ReferencePanel.vcf.gz \
-I result.chr7.ReferencePanel.vcf.gz \
-I result.chr8.ReferencePanel.vcf.gz \
-I result.chr9.ReferencePanel.vcf.gz \
-I result.chr10.ReferencePanel.vcf.gz \
-I result.chr11.ReferencePanel.vcf.gz \
-I result.chr12.ReferencePanel.vcf.gz \
-I result.chr13.ReferencePanel.vcf.gz \
-I result.chr14.ReferencePanel.vcf.gz \
-I result.chr15.ReferencePanel.vcf.gz \
-I result.chr16.ReferencePanel.vcf.gz \
-I result.chr17.ReferencePanel.vcf.gz \
-I result.chr18.ReferencePanel.vcf.gz \
-I result.chr19.ReferencePanel.vcf.gz \
-I result.chr20.ReferencePanel.vcf.gz \
-O ./result.ALL.ReferencePanel.vcf.gz
  1. 制作资源文件
    已经准备好筛选的 vcf 文件以及参考基因组文件,下面就是制作资源文件步骤:
VerifyBamID --RefVCF result.ALL.ReferencePanel.vcf.gz --Reference ./Homo_sapiens_assembly19.fasta

完成后会产生如下文件:

result.ALL.ReferencePanel.vcf.gz.UD,
result.ALL.ReferencePanel.vcf.gz.mu,
result.ALL.ReferencePanel.vcf.gz.bed
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值