GCTA全称: Genome-wide Complex Trait Analysis全基因组复杂性状分析
官网:
https://cnsgenomics.com/software/gcta
开发的初衷是用于评估表型变异中遗传变异所占的比例,即评估遗传力的大小。
主要功能:参考官网有很多,但我更关注以下
1. GCTA计算亲缘关系GRM矩阵(kinship矩阵)
2. 利用全基因组SNP估计近亲系数
3. 群体遗传中,GCTA中做PCA
4. 不同性状/表型间(traits)的遗传相关性
linux下载安装GCTA参考:
GCTA PCA分析以及软件安装教程_育种数据分析之放飞自我的博客-CSDN博客_pca分析软件
1. 样本间亲缘关系 GRM ( genetic relationship matrix )
有求:GCTA-GREML does not assume that the individuals should be unrelated.
GCTA有2种方法,可以选择:
1. 默认Yang:–make-grm-alg 0
gcta64 --bfile filename --make-grm --make-grm-alg 0 --out outfilename_yang
2. Van :–make-grm-alg 1
gcta64 --bfile filename --make-grm --make-grm-alg 1 --out outfilename_van
FQ:样本量太少时不建议计算,当样本量较小时,估计值的抽样方差(标准差平方)较大(参见GCTA-GREML功率计算器),因此snp -遗传力估计值(h2-SNP)波动较大,甚至可能达到边界(0或1)。因此,当样本量较小时,snp -遗传力估计值为0或1(标准差较大)也就不足为奇了。
主要参考网站:
https://www.jianshu.com/p/f8d1cd2dd95f?u_atoken=b273faf6-2883-41d8-84ce-07eee09ea820&u_asession=01OHEaXpfqdos62pJacsv9lbmFmlV2zOgHf2wh2o8vcX0sEhXzqevoNcvuFAETk2AoX0KNBwm7Lovlpxjd_P_q4JsKWYrT3W_NKPr8w6oU7K-bQaHAc7t0QQS9_7bgi_hCK1h9zIJGqUc2hCV04v6XLWBkFo3NEHBv0PZUm6pbxQU&u_asig=05atklbMTwZVYERrQnXuWL4idcaZ7XUPpJpfbdqYikrh1kMn7XiPVgGXwoLjWvAJ_71o6rvWrg9B6pSHjXG0aA2E89_K2HWhDglOXG4_-nG_43VWtsAa95bQrP2aBgfwY0tSUdy8L5xy7VldpAM3d1VKQdVEw-gKUXuwVaIr6ojj39JS7q8ZD7Xtz2Ly-b0kmuyAKRFSVJkkdwVUnyHAIJzfTibC0XGPU8r62j03DryQj6Ssn8CpHPyGHSj8dzO-NKn3URtWYq5VQe2s5Xl6Zn2u3h9VXwMyh6PgyDIVSG1W9EhGxrqx_31Qtrk8d5EAuS61hnSxivNmN16UMyti3XTKJZ9WB_iPUeUuGkEmXB5KpZa9_JxhIKQ_Yg-eR8q11AmWspDxyAEEo4kbsryBKb9Q&u_aref=I4fAW95PjY5wh3AyT4ehdrOhqZM%3Dhttps://www.jianshu.com/p/f8d1cd2dd95f?u_atoken=b273faf6-2883-41d8-84ce-07eee09ea820&u_asession=01OHEaXpfqdos62pJacsv9lbmFmlV2zOgHf2wh2o8vcX0sEhXzqevoNcvuFAETk2AoX0KNBwm7Lovlpxjd_P_q4JsKWYrT3W_NKPr8w6oU7K-bQaHAc7t0QQS9_7bgi_hCK1h9zIJGqUc2hCV04v6XLWBkFo3NEHBv0PZUm6pbxQU&u_asig=05atklbMTwZVYERrQnXuWL4idcaZ7XUPpJpfbdqYikrh1kMn7XiPVgGXwoLjWvAJ_71o6rvWrg9B6pSHjXG0aA2E89_K2HWhDglOXG4_-nG_43VWtsAa95bQrP2aBgfwY0tSUdy8L5xy7VldpAM3d1VKQdVEw-gKUXuwVaIr6ojj39JS7q8ZD7Xtz2Ly-b0kmuyAKRFSVJkkdwVUnyHAIJzfTibC0XGPU8r62j03DryQj6Ssn8CpHPyGHSj8dzO-NKn3URtWYq5VQe2s5Xl6Zn2u3h9VXwMyh6PgyDIVSG1W9EhGxrqx_31Qtrk8d5EAuS61hnSxivNmN16UMyti3XTKJZ9WB_iPUeUuGkEmXB5KpZa9_JxhIKQ_Yg-eR8q11AmWspDxyAEEo4kbsryBKb9Q&u_aref=I4fAW95PjY5wh3AyT4ehdrOhqZM%3DGCTA学习6 | GCTA计算GRM矩阵(kinship矩阵)_育种数据分析之放飞自我的博客-CSDN博客
2. 近亲系数
近交系数(coefficient of inbreeding)指的是某一个体从他的祖先得到一对纯合的,等同的基因的概率,即在遗传上是完全相同的基因的概率。
近交群体的近交程度,常用群体的平均近交系数度量
gcta64 --bfile filename --autosome --make-grm --out outfilename
3. GCTA中做PCA
- 第一步:构建kinship矩阵(有两种方法)
- 第一种:Yang的方法
--make-grm 0
- 第二种:Van的方法
--make-grm-alg 1
- 第一种:Yang的方法
- 第二步:PCA计算
- GCTA学习5 | GCTA计算PCA及可视化_育种数据分析之放飞自我的博客-CSDN博客
4. 不同性状/表型间(traits)的遗传相关性
gcta64
--reml-bivar --reml-bivar-nocove --grm
test
--pheno pheno.txt --reml-bivar-lrt-rg 0 --out
test
利用GCTA工具计算复杂性状/特征(ComplexTrait)的遗传相关性(geneticcorrelation) - 橙子牛奶糖 - 博客园
gcta 计算 fst:
gcta64 --bfile test --fst --autosome-num 26 --sub-popu subpopu.txt --out test
Results are saved in *.fst file.
Chr SNP bp refA freq_Popu1(n=1000) freq_Popu2(n=2925) Fst
1 rs4475691 836671 T 0.208561 0.193984 0.000508832
1 rs28705211 890368 C 0.287427 0.274928 0.000295543
1 rs9777703 918699 C 0.0265765 0.0313871 0.000300492
报错:Error: Line 1 of [bestqc_chr161.bim] contains illegal chr number, please check An error occurs, please check the options or data
指定除人类以外的物种的常染色体数目。例如,如果您指定常染色体的数目为19,那么染色体1到19将被识别为常染色体,而染色体20将被识别为X染色体。如果未指定此选项,则默认为22。
解决办法:
--autosome-num 200 --autosome
主要参考网站:
gcta 计算 fst 实践 - 小鲨鱼2018 - 博客园
本文章仅作为个人笔记与大家分享,希望大家少走弯路,过程中参考了一系列大神的文章,如有侵犯劳烦联系删除。