群体变异数据vcf文件过滤概念及使用方法

标记过滤指标概念

  • miss 缺失率,即标记缺失的比例 一般过滤0.1或者0.2;对于简化基因组的也有进行0.5的过滤的,看具体需求了
  • maf 最小等位基因频率 一般过滤0.05或者0.01
  • DP 深度,reads支持数 这个要根据具体测序的情况最好过滤到4,7,10以上,然后对于深度高于平均深度3-5倍的,尽量也进行过滤,因为大概率是重复区域的情况
  • GQ 基因型质量值 一般gatk过滤30,samtools过滤20
  • AD ref,alt基因型情况 如果是动植物这种germline的变异一般要求比例不要太失衡,somatic的没有这个要求
  • het 杂和率,标记的杂合率,对于特定的群体有过滤的需求

gatk标记硬过滤

  • Hard-filter SNPs on multiple expressions using VariantFiltration
  • 这个是硬过滤,snp,indel的过滤参数不同,但是不如
gatk VariantFiltration \
    -V snps.vcf.gz \
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "SOR > 3.0" --filter-name "SOR3" \
    -filter "FS > 60.0" --filter-name "FS60" \
    -filter "MQ < 40.0" --filter-name "MQ40" \
    -filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \
    -filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \
    -O snps_filtered.vcf.gz
gatk VariantFiltration \ 
    -V indels.vcf.gz \ 
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "FS > 200.0" --filter-name "FS200" \
    -filter "ReadPosRankSum < -20.0" --filter-name "ReadPosRankSum-20" \ 
    -O indels_filtered.vcf.gz

vcftools 群体标记过滤

  • 进行群体的高级过滤
vcftools \
--minDP 4 \
--maxDP 100 \
--minGQ  10 \
--minQ 30 \
--min-meanDP 3 \
--out meanDP3.miss0.5.maf0.01.vcf \
--vcf raw.vcf \
--recode --recode-INFO-all \
--max-missing 0.5 \
--maf 0.01
  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值