基因型填充前的质控条件简介

在基因型填充前,为了确保准确率,需要进行质量控制。这包括SNP位点和样本的过滤,如missingness、Hardy-Weinberg平衡、minor allele frequency检查、gender check、IBD分析、heterozygosity和inbreeding检测以及population stratification处理。通过对分型结果的严格筛选,可以提高填充的准确性和后续GWAS分析的可靠性。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

影响基因型填充准确率的因素有很多,比如分型结果的质量,填充软件的选择,reference panel的选择,样本量的大小, SNP的密度等等。

为了提高填充的准确率,我们需要在填充前进行质量过滤。对于原始的分型结果,可以根据一些条件进行筛选和过滤,得到高质量的分型结果,用于后续的填充。

分型结果本质上是一张由样本和SNP位点构成的表格,对应的过滤手段也分成了两个大的方向,针对SNP位点的过滤和针对样本的过滤。

这里的质控条件和GWAS分析的质控条件是一致的,本文基于case/control的GWAS分析,讲解下常用的过滤条件。对于SNP位点的过滤,常用的过滤条件如下

1. missingness

在原始的分型结果中,会有部分分型失败的位点,称之为missing data。分型成功的比例称之为call rate, 根据snp call rate进行过滤的代码如下

plink \
--noweb \
--file test \
--geno 0.1 \
--out filter

--geno指定snp位点分型失败比例的阈值,分型失败的比例大于该阈值的位点会被过滤掉。

2.  Hardy-Weinberg equilibrium

GWAS假设样本群体是符合哈温平衡的, 对于不符合哈温平衡的SNP位点,需要过滤掉。

需要注意的是,哈温平衡的计算是针对群体的,在case/control中,如果合并一起计算hwe, 该位点的不平衡很可能是

基因型填充是指根据已有的基因型数据来推断缺失位点的基因型。Plink是常用的进行基因型填充的软件之一。在基因型填充过程中,Plink使用了多种算法和方法来准确估计缺失位点的基因型。 Plink的基因型填充功能可以通过使用不同的命令行选项来实现。其中最常用的是"--fill-missing-genotypes"选项,该选项允许使用不同的方法进行基因型填充。这些方法包括最大似然估计、EM算法和贝叶斯方法等。用户可以根据自己的需求选择合适的填充方法。 在进行基因型填充,需要注意样本的数据质量以及所使用的参考数据的质量。样本数据的质量可以通过分析分型结果的准确率来评估,而参考数据的质量可以通过参考面板的选择来控制。此外,样本量的大小和SNP的密度也会对基因型填充的准确性产生影响。 为了保证基因型填充的准确性,还需要考虑样本的杂合度和哈温平衡。在进行基因型填充,需要确保样本符合哈温平衡的假设。如果样本中存在纯合基因型或杂合度较低的样本,可能会导致填充结果的不准确性。在GWAS分析中,通常需要移除这些样本以保证群体符合哈温平衡的假设。 总结起来,基因型填充是使用已有的基因型数据来推断缺失位点的基因型。Plink是常用的进行基因型填充的软件之一,它提供了多种方法和算法来实现基因型填充。在进行基因型填充,需要注意样本数据的质量、参考数据的质量以及样本的杂合度和哈温平衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值