【分析软件GCTA】计算样本间亲缘关系、PCA、GBLUP、fst

GCTA全称: Genome-wide Complex Trait Analysis全基因组复杂性状分析

官网

https://cnsgenomics.com/software/gcta

开发的初衷是用于评估表型变异中遗传变异所占的比例,即评估遗传力的大小。

主要功能:参考官网有很多,但我更关注以下

1. GCTA计算亲缘关系GRM矩阵(kinship矩阵)

2. 利用全基因组SNP估计近亲系数

3. 群体遗传中,GCTA中做PCA

4. 不同性状/表型间(traits)的遗传相关性

 linux下载安装GCTA参考:

GCTA PCA分析以及软件安装教程_育种数据分析之放飞自我的博客-CSDN博客_pca分析软件

1. 样本间亲缘关系 GRM ( genetic relationship matrix ) 

有求:GCTA-GREML does not assume that the individuals should be unrelated. 

GCTA有2种方法,可以选择:

1.  默认Yang:–make-grm-alg 0

gcta64 --bfile filename  --make-grm --make-grm-alg 0 --out outfilename_yang

2.   Van         :–make-grm-alg 1

gcta64 --bfile filename  --make-grm --make-grm-alg 1 --out outfilename_van

FQ:样本量太少时不建议计算,当样本量较小时,估计值的抽样方差(标准差平方)较大(参见GCTA-GREML功率计算器),因此snp -遗传力估计值(h2-SNP)波动较大,甚至可能达到边界(0或1)。因此,当样本量较小时,snp -遗传力估计值为0或1(标准差较大)也就不足为奇了。

主要参考网站:

衡量样本亲缘关系,除了IBD你还知道哪些方法?

https://www.jianshu.com/p/f8d1cd2dd95f?u_atoken=b273faf6-2883-41d8-84ce-07eee09ea820&u_asession=01OHEaXpfqdos62pJacsv9lbmFmlV2zOgHf2wh2o8vcX0sEhXzqevoNcvuFAETk2AoX0KNBwm7Lovlpxjd_P_q4JsKWYrT3W_NKPr8w6oU7K-bQaHAc7t0QQS9_7bgi_hCK1h9zIJGqUc2hCV04v6XLWBkFo3NEHBv0PZUm6pbxQU&u_asig=05atklbMTwZVYERrQnXuWL4idcaZ7XUPpJpfbdqYikrh1kMn7XiPVgGXwoLjWvAJ_71o6rvWrg9B6pSHjXG0aA2E89_K2HWhDglOXG4_-nG_43VWtsAa95bQrP2aBgfwY0tSUdy8L5xy7VldpAM3d1VKQdVEw-gKUXuwVaIr6ojj39JS7q8ZD7Xtz2Ly-b0kmuyAKRFSVJkkdwVUnyHAIJzfTibC0XGPU8r62j03DryQj6Ssn8CpHPyGHSj8dzO-NKn3URtWYq5VQe2s5Xl6Zn2u3h9VXwMyh6PgyDIVSG1W9EhGxrqx_31Qtrk8d5EAuS61hnSxivNmN16UMyti3XTKJZ9WB_iPUeUuGkEmXB5KpZa9_JxhIKQ_Yg-eR8q11AmWspDxyAEEo4kbsryBKb9Q&u_aref=I4fAW95PjY5wh3AyT4ehdrOhqZM%3Dicon-default.png?t=N7T8https://www.jianshu.com/p/f8d1cd2dd95f?u_atoken=b273faf6-2883-41d8-84ce-07eee09ea820&u_asession=01OHEaXpfqdos62pJacsv9lbmFmlV2zOgHf2wh2o8vcX0sEhXzqevoNcvuFAETk2AoX0KNBwm7Lovlpxjd_P_q4JsKWYrT3W_NKPr8w6oU7K-bQaHAc7t0QQS9_7bgi_hCK1h9zIJGqUc2hCV04v6XLWBkFo3NEHBv0PZUm6pbxQU&u_asig=05atklbMTwZVYERrQnXuWL4idcaZ7XUPpJpfbdqYikrh1kMn7XiPVgGXwoLjWvAJ_71o6rvWrg9B6pSHjXG0aA2E89_K2HWhDglOXG4_-nG_43VWtsAa95bQrP2aBgfwY0tSUdy8L5xy7VldpAM3d1VKQdVEw-gKUXuwVaIr6ojj39JS7q8ZD7Xtz2Ly-b0kmuyAKRFSVJkkdwVUnyHAIJzfTibC0XGPU8r62j03DryQj6Ssn8CpHPyGHSj8dzO-NKn3URtWYq5VQe2s5Xl6Zn2u3h9VXwMyh6PgyDIVSG1W9EhGxrqx_31Qtrk8d5EAuS61hnSxivNmN16UMyti3XTKJZ9WB_iPUeUuGkEmXB5KpZa9_JxhIKQ_Yg-eR8q11AmWspDxyAEEo4kbsryBKb9Q&u_aref=I4fAW95PjY5wh3AyT4ehdrOhqZM%3DGCTA学习6 | GCTA计算GRM矩阵(kinship矩阵)_育种数据分析之放飞自我的博客-CSDN博客

2. 近亲系数

近交系数(coefficient of inbreeding)指的是某一个体从他的祖先得到一对纯合的,等同的基因的概率,即在遗传上是完全相同的基因的概率。

近交群体的近交程度,常用群体的平均近交系数度量

gcta64 --bfile filename --autosome --make-grm --out outfilename

3.  GCTA中做PCA

4. 不同性状/表型间(traits)的遗传相关性

gcta64 --reml-bivar --reml-bivar-nocove --grm test --pheno pheno.txt --reml-bivar-lrt-rg 0 --out test

利用GCTA工具计算复杂性状/特征(ComplexTrait)的遗传相关性(geneticcorrelation) - 橙子牛奶糖 - 博客园
 

gcta 计算 fst:

gcta64 --bfile test --fst --autosome-num 26 --sub-popu subpopu.txt --out test

Results are saved in *.fst file.

Chr    SNP       bp     refA freq_Popu1(n=1000) freq_Popu2(n=2925) Fst 
1    rs4475691   836671  T   0.208561    0.193984    0.000508832 
1    rs28705211  890368  C   0.287427    0.274928    0.000295543 
1    rs9777703   918699  C   0.0265765   0.0313871   0.000300492 

报错:Error: Line 1 of [bestqc_chr161.bim] contains illegal chr number, please check An error occurs, please check the options or data


指定除人类以外的物种的常染色体数目。例如,如果您指定常染色体的数目为19,那么染色体1到19将被识别为常染色体,而染色体20将被识别为X染色体。如果未指定此选项,则默认为22。

解决办法:

--autosome-num 200 --autosome

主要参考网站:

gcta 计算 fst 实践 - 小鲨鱼2018 - 博客园

具体参数可以查看:GCTA | Yang Lab

本文章仅作为个人笔记与大家分享,希望大家少走弯路,过程中参考了一系列大神的文章,如有侵犯劳烦联系删除。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值