plink遗传数据质控--每个个体QC、每个marker(变异)质控、全基因组关联meta分析QC

0.4 遗传数据质控

0.4.1 每个个体QC(per-individual QC)

主要有5步

  1. DNA质量差(call率低,缺失基因型);
  2. 常染色体杂合度高,表明可能样品污染或杂合度低,这可能是近亲繁殖造成的。
  3. 性别信息不一致
  4. 重复的或相关的
  5. 来自不同祖先的群体
1)低质量基因型个体的鉴定

5%的缺失基因型比例

plink --bfile 1kg_hm3 --mind 0.05 --make-bed --out 1kg_hm3_mind005
2)常染色体杂合度鉴定

在分析中排除了杂合度高和杂合度低的个体。

--het,计算杂合度,主要生成两个文件,1kg_hm3_het.het, 1kg_hm3_het.log

plink --bfile 1kg_hm3 --het --out 1kg_hm3_het

每个样本的杂合度计算为杂合子基因型call数与非缺失calls总数之比。

--exclude,可以将具有非常高或非常低的平均杂合度值的异常值去掉,规则是去除那些偏离特定样本杂合性平均值士3个标准差的个体。

杂合性统计数据的分布

library(tidyverse)
heterogeneity_stats <- read.table("../1kg_hm3_het.het",header = T)
colnames(heterogeneity_stats)
het <-  (heterogeneity_stats$N.NM.-heterogeneity_stats$O.HOM.)/heterogeneity_stats$N.NM.
min <- mean(het)-3*sd(het)
max <- mean(het)+3*sd(het)
hist(het,col="lightblue",xlim=c(0.25,0.37),
     main="Histogram of Heterogeneity")
abline(v = c(min,max), col = "red", lwd=3, lty=2)

3)识别性别信息不一致的个体

男性只有一个X染色体副本,因此性染色体中的任何标记都不可能是杂合的。

plink --bfile hapmap-ceu --check-sex --out hapmap_sexccheck

生成.sexcheck文件, F为X染色体近交系数,雄性的X染色体近交系系数应大于0.8,雌性的X染色体近交系系数应小于0.2。

$ head hapmap_sexccheck.sexcheck
 FID       IID       PEDSEX       SNPSEX       STATUS            F
1334   NA12144            1            1           OK       0.9999
1334   NA12145            2            2           OK     -0.06528
1334   NA12146            1            1           OK       0.9999
1334   NA12239            2            2           OK      0.05498
1340   NA06994            1            1           OK       0.9999
1340   NA07000            2            2           OK      -0.1001
1340   NA07022            1            1           OK       0.9998
1340   NA07056            2            2           OK     -0.03786
1341   NA07034            1            1           OK       0.9999
4)识别重复的或相关的个体

即无意重复【inadvertent duplications】和神秘联系[cryptic relatedness](近亲)。

见第9章

5)不同血统的个体的鉴定:群体分层

主要是进行PCA分析。

0.4.2 每个marker(变异)质控

主要有5步

  1. 排除低检出率SNP
  2. 去除低等位基因频率的SNP
  3. 识别和排除具有极端偏离哈代温伯格平衡的变异
  4. 在病例对照研究中,排除组间检出call率极不同的snp
  5. 在输入snp的情况下,排除了低输入质量的变异的研究
1)低检出率SNP

call率低于95%的变异被排除在分析之外。用命令--geno

plink --bfile 1kg_hm3 --geno 0.05 --make-bed --out 1kg_hm3_geno
2)低等位基因频率SNP

排除低等位基因频率的原因,首先,在低MAF的情况下,缺乏检测任何真正的snp-性状关联的能力。其次,这些snp往往更容易出现基因分型错误。

--maf # 去掉MAF小于0.01的位点

plink --bfile 1kg_hm3 --maf 0.01 --make-bed --out 1kg_hm3_maf

如果有大样本,如100,000,MAF阈值可为0.01;如果N=10,000,MAF为0.05.

3)偏离哈温平衡

HWE假设一个无限大的种群,没有选择、突变或迁移,并且如果没有违反任何条件,基因型和等位基因频率在世代中是恒定的。

--hwe

plink --bfile 1kg_hm3 --hwe 0.00001 --make-bed --out 1kg_hm3_hwe

产生四个新文件,.log .bed .fam .bim

排除指标根据你是二元的还是定量的(例如,连续的)特征而不同。

对于二元性状,规则通常在cases中,HWE p-value < 1 0 − 10 10^{-10} 1010,在control中< 1 0 − 6 10^{-6} 106

对于数量性状,HWE p值< 1 0 − 6 10^{-6} 106

4)整合不同QC的文件
plink 	--bfile 1kg_hm3 \ # 输入二进制文件
		--mind 0.03 \ # 包含至少97%完整的高基因分型个体 #有3%的SNP都是缺失的,那么就删掉该个体
 		--geno 0.05 \ # call率低于95%的变异被排除在分析之外 #一个SNP在个体中5%都是缺失的,那么就删掉该SNP
 		--maf 0.01 \ # 去掉MAF小于0.01的位点 
 	--hwe 0.00001 \
	--exclude individuals_failQC.txt \ # 去除未完成个体水平QC的个体
 		--make-bed  --out 1kg_hm3_QC
0.4.3 全基因组关联meta分析QC
1)filter
  1. 使用一个通用的参考来使所有文件中变异的碱基对位点一致。
  2. 评估关联结果的信息,特别是来自大量文件的信息。效应等位基因有缺失信息的变异、可变等位基因变异、效应估计值、标准误差或p值不可信的变异将从样本中删除。
  3. 非双等位基因变异或单型,都被排除在最终结果列表之外。
  4. 来自罕见变异的结果通常是有问题的,可能会影响结果。MAF低于1%被剔除,
  5. 输入质量影响相关性分析结果质量。输入质量低于0.7的变异被剔除。
2)诊断检查

等位基因频率图

检查变异(1)都以相同的方式编码,在等位基因频率和链取向上没有错误,(2)在研究中有相似的等位基因频率。

y是期望等位基因频率,X是来自参考群体的等位基因频率。在这里我们只绘制等位基因频率差异为0.2的点

森林图

QQ图

参考:
An Introduction to Statistical Genetic Data Analysis.

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

紫霄zixiao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值