LDSC分析实战

最新推荐文章于 2024-06-22 16:13:30 发布

生信修炼手册

最新推荐文章于 2024-06-22 16:13:30 发布

阅读量9.8k

点赞数 9

文章标签：可视化大数据数据分析 python 数据挖掘

本文链接：https://blog.csdn.net/weixin_43569478/article/details/108079836

版权

本文介绍了如何使用LDSC软件进行连锁不平衡回归分析，包括计算LD score和进行LDSC分析的步骤。通过LDSC，可以鉴定混淆因素，估计遗传力，并分析不同表型的遗传相似度。软件源代码可在GitHub找到，提供了方便的数据处理和分析工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎关注”生信修炼手册”!

通过对单个表型的GWAS分析结果进行连锁不平衡回归分析，可以鉴定是否存在混淆因素，同时估计遗传力的大小；对于多个不同表型的GWAS分析结果进行分析，则可以计算表型间的遗传相似度。

通过ldsc这款软件，可以方便地进行LDSC分析，源代码保存在github上，网址如下

https://github.com/bulik/ldsc

采用了conda来确保软件独立的安装环境，安装过程如下

git clone https://github.com/bulik/ldsc.git
cd ldsc
conda env create --file environment.yml
source activate ldsc

通过官网的wiki, 可以快速的掌握其用法，基本用法如下

1. 计算ld score

根据原始的分型结果，计算LD score, 输入数据为plink的二进制格式，代码如下

python ldsc.py  --bfile 22  --l2 --ld-wind-cm 1  --out 22

bfile参数指定输入的plink二进制文件，l2参数表示计算LD score值，ld-wind-cm参数指定计算LD的窗口大小，单位为1cM, out参数指定输出文件的前缀。

运行成功后，LD score值保存在后缀为l2.ldscore.gz的文件中, 内容如下

记录了每一个SNP位点的LD score值。值得注意的是，在计算LD score值时，每条染色体要分开计算。

2. 进行LDSC分析

第一步我们得到了LD score值，进行LDSC分析，我们还需要GWAS分析结果。该软件制定了一种后缀为sumstats的格式，用来存储GWAS分析结果，要求有以下5列

SNP表示SNP ID, 比如rs号;N表示样本个数;Z表示SNP对表型的效应值，beta, OR, z-score等等; P表示pvalue;A1表示突变的Allele, A2表示参照的Allele。

该软件自带了脚本来格式化GWAS结果，生成sumstats格式的文件，用法如下

python munge_sumstats.py \
--sumstats gwas.txt \
--N 2000 \
--out test

格式转换之后，就可以进行LDSC分析了，用法如下

python ldsc.py \
--h2 test.sumstats.gz \
--ref-ld-chr ld_score_chr/ \
--w-ld-chr ld_score_chr/ \
--out test_h2

h2参数表示进行回归分析，估算遗传力;ref-ld-chr参数指定ld score值对应的目录，该目录下每条染色体的LD score为一个文件；w-ld-chr指定回归分析中每个SNP位点的权重，因为算法对这个权重不敏感，和ref-ld-chr保持一致即可，out参数指定输出文件的前缀。

在后缀为log的文件中保存了回归分析的截距以及遗传力，该软件同时还可以计算多个表型的遗传相似度，更多用法请参考官方文档。

·end·

—如果喜欢，快分享给你的朋友们吧—

往期精彩