1.1 相关性分析
1.1.1 不同变量类型
1) 阈值性状(1,2)
plink的语境叫“case and control”,即表型值数据是两类数据:1,2,其中0和-9都表示缺失。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
• --assoc,不允许有协变量
• --logistic,允许有协变量,如果考虑协变量,速度变慢。比assoc速度慢。
2) 连续性状(定量性状)
这里的性状时连续性状,也就是除了1,2,0,-9外还有其它数值,–assoc会进行T检验(Student’s test),还可以用–linear进行分析。
• --assoc,不允许有协变量,速度快
• --linear,允许有协变量,速度慢
连续型变量示例
评估rs9674439与BMI的相关性,生成BMIrs9674439.assoc.linear文件。下面的输出显示SNP rs9674439上C等位基因的每一个拷贝都与BMI降低0.29相关。
$ plink --bfile 1kg_EU_BMI --snps rs9674439 --assoc --linear --out BMIrs9674439
$ head BMIrs9674439.assoc.linear
CHR SNP BP A1 TEST NMISS BETA STAT P
16 rs9674439 33836510 C ADD 379 -0.2974 -1.269 0.2052
- 染色体计数(CHR)
- 变异标识符 (SNP)
- 碱基对位点 (BP)
- 效应等位基因 (Al)
- 使用的统计检验类型 (TEST),这里是ADD
- 缺失值的数量 (NMISS)
- 回归系数(BETA)
- t统计 (STAT);
- t统计量的渐近p值 §
分类变量(cases,controls)示例
生成Overweight_rs9674439.logistic文件
plink --bfile 1kg_EU_Overweight --snps rs9674439 --assoc --logistic --out Overweight_rs9674439
$ head BMIrs9674439.assoc.linear
CHR SNP BP A1 TEST NMISS OR STAT P
16 rs9674439 33836510 C ADD 1092 0.7261 -3.32 0.0009017
优势率(OR),总是大于0,OR>1,表示增加风险,OR<1,表示降低风险,OR=1,表示没有相关性。
PLINK报告了逻辑回归的优势率估计,在这个例子中,这是与每个C等位基因拷贝相关的超重概率与在没有C等位基因拷贝的情况下超重概率之间的比值。换句话说,它告诉我们,如果一个人至少有一个特定的等位基因拷贝,那么他超重的可能性会增加多少。
在下面的例子中,我们看到OR是0.7,这表明C等位基因与超重概率的降低有关。
1.1.2 其他模型
dominant models,主导模型,即假设等位基因AB,其中A是风险等位基因,其研究有至少一个A拷贝的效应,即AA+AB vs BB,plink命令:--linear dominant
。
recessive model,回归模型,评估两个A拷贝的效应,即AA vs AB+BB,plink命令,--linear recessive
。
dominant models示例
$ plink --bfile 1kg_EU_BMI --snps rs9674439 --assoc --linear dominant --out BMIrs9674439
主要产生BMIrs9674439.log、.assoc_linear以及.qassoc三种文件。
$ head BMIrs9674439.assoc.linear
CHR SNP BP A1 TEST NMISS BETA STAT P
16 rs9674439 33836510 C DOM 379 -0.4783 -1.462 0.1445
$ head BMIrs9674439.qassoc
CHR SNP BP NMISS BETA SE R2 T P
16 rs9674439 33836510 379 -0.2974 0.2343 0.004254 -1.269 0.2052
协变量及所有变异
--covar
,后面跟着包含变量的制表符分隔的文件,用作协变量进行分析。
删除--snp
,检测基因型文件中所有遗传变异与表型相关性。
$ plink --bfile 1kg_EU_BMI --assoc --linear --out BMIgwas
$ head BMIgwas.assoc.linear
CHR SNP BP A1 TEST NMISS BETA STAT P
1 rs1048488 760912 C ADD 379 0.6031 2.151 0.03208
1 rs3115850 761147 T ADD 379 0.6056 2.135 0.03343
1 rs2519031 793947 G ADD 379 -0.9188 -1.019 0.3087
1 rs4970383 838555 A ADD 379 -0.01473 -0.05882 0.9531
1 rs4475691 846808 T ADD 379 -0.3347 -1.221 0.223
1 rs1806509 853954 C ADD 379 -0.1015 -0.4786 0.6325
1 rs7537756 854250 G ADD 379 -0.1289 -0.4769 0.6337
1 rs28576697 870645 C ADD 379 0.1739 0.7539 0.4514
1 rs7523549 879317 T ADD 379 0.1316 0.2271 0.8204
检测多个SNP相关性(1百万个变异)时,检测P值为 5 X 1 0 − 8 5X10^{-8} 5X10−8,
其他分析:
1) within family 分析(家族固定效应分析),检测家族内不同基因型的效应,plnk命令是--qfam
,、
参考:
An Introduction to Statistical Genetic Data Analysis.
飞哥的GWAS教程