PLINK相关性分析,分类变量和连续型变量

1.1 相关性分析

1.1.1 不同变量类型
1) 阈值性状(1,2)

plink的语境叫“case and control”,即表型值数据是两类数据:1,2,其中0和-9都表示缺失。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
• --assoc,不允许有协变量
• --logistic,允许有协变量,如果考虑协变量,速度变慢。比assoc速度慢。

2) 连续性状(定量性状)

这里的性状时连续性状,也就是除了1,2,0,-9外还有其它数值,–assoc会进行T检验(Student’s test),还可以用–linear进行分析。
• --assoc,不允许有协变量,速度快
• --linear,允许有协变量,速度慢

连续型变量示例

评估rs9674439与BMI的相关性,生成BMIrs9674439.assoc.linear文件。下面的输出显示SNP rs9674439上C等位基因的每一个拷贝都与BMI降低0.29相关。

$ plink --bfile 1kg_EU_BMI --snps rs9674439 --assoc --linear --out BMIrs9674439
$ head BMIrs9674439.assoc.linear
 CHR         SNP         BP   A1       TEST    NMISS       BETA         STAT            P
  16   rs9674439   33836510    C        ADD      379    -0.2974       -1.269       0.2052
  1. 染色体计数(CHR)
  2. 变异标识符 (SNP)
  3. 碱基对位点 (BP)
  4. 效应等位基因 (Al)
  5. 使用的统计检验类型 (TEST),这里是ADD
  6. 缺失值的数量 (NMISS)
  7. 回归系数(BETA)
  8. t统计 (STAT);
  9. t统计量的渐近p值 §

分类变量(cases,controls)示例

生成Overweight_rs9674439.logistic文件

plink --bfile 1kg_EU_Overweight --snps rs9674439 --assoc --logistic --out Overweight_rs9674439

$ head BMIrs9674439.assoc.linear
 CHR         SNP         BP   A1       TEST    NMISS       OR         STAT            P
  16   rs9674439   33836510    C        ADD    1092    0.7261       -3.32      0.0009017

优势率(OR),总是大于0,OR>1,表示增加风险,OR<1,表示降低风险,OR=1,表示没有相关性。

PLINK报告了逻辑回归的优势率估计,在这个例子中,这是与每个C等位基因拷贝相关的超重概率与在没有C等位基因拷贝的情况下超重概率之间的比值。换句话说,它告诉我们,如果一个人至少有一个特定的等位基因拷贝,那么他超重的可能性会增加多少。

在下面的例子中,我们看到OR是0.7,这表明C等位基因与超重概率的降低有关。

1.1.2 其他模型

dominant models,主导模型,即假设等位基因AB,其中A是风险等位基因,其研究有至少一个A拷贝的效应,即AA+AB vs BB,plink命令:--linear dominant

recessive model,回归模型,评估两个A拷贝的效应,即AA vs AB+BB,plink命令,--linear recessive

dominant models示例
$ plink --bfile 1kg_EU_BMI --snps rs9674439 --assoc --linear dominant --out BMIrs9674439

主要产生BMIrs9674439.log、.assoc_linear以及.qassoc三种文件。

$ head BMIrs9674439.assoc.linear
 CHR         SNP         BP   A1       TEST    NMISS       BETA         STAT            P
  16   rs9674439   33836510    C        DOM      379    -0.4783       -1.462       0.1445
  
$ head BMIrs9674439.qassoc
 CHR         SNP         BP    NMISS       BETA         SE         R2        T            P
  16   rs9674439   33836510      379    -0.2974     0.2343   0.004254   -1.269       0.2052
协变量及所有变异

--covar,后面跟着包含变量的制表符分隔的文件,用作协变量进行分析。

删除--snp,检测基因型文件中所有遗传变异与表型相关性。

$ plink --bfile 1kg_EU_BMI --assoc --linear --out BMIgwas
$ head BMIgwas.assoc.linear
 CHR         SNP         BP   A1       TEST    NMISS       BETA         STAT            P
   1   rs1048488     760912    C        ADD      379     0.6031        2.151      0.03208
   1   rs3115850     761147    T        ADD      379     0.6056        2.135      0.03343
   1   rs2519031     793947    G        ADD      379    -0.9188       -1.019       0.3087
   1   rs4970383     838555    A        ADD      379   -0.01473     -0.05882       0.9531
   1   rs4475691     846808    T        ADD      379    -0.3347       -1.221        0.223
   1   rs1806509     853954    C        ADD      379    -0.1015      -0.4786       0.6325
   1   rs7537756     854250    G        ADD      379    -0.1289      -0.4769       0.6337
   1  rs28576697     870645    C        ADD      379     0.1739       0.7539       0.4514
   1   rs7523549     879317    T        ADD      379     0.1316       0.2271       0.8204

检测多个SNP相关性(1百万个变异)时,检测P值为 5 X 1 0 − 8 5X10^{-8} 5X108

其他分析:

1) within family 分析(家族固定效应分析),检测家族内不同基因型的效应,plnk命令是--qfam,、

参考:
An Introduction to Statistical Genetic Data Analysis.
飞哥的GWAS教程

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

紫霄zixiao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值