LDSC分析实战

本文介绍了如何使用LDSC软件进行连锁不平衡回归分析,包括计算LD score和进行LDSC分析的步骤。通过LDSC,可以鉴定混淆因素,估计遗传力,并分析不同表型的遗传相似度。软件源代码可在GitHub找到,提供了方便的数据处理和分析工具。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

通过对单个表型的GWAS分析结果进行连锁不平衡回归分析,可以鉴定是否存在混淆因素,同时估计遗传力的大小;对于多个不同表型的GWAS分析结果进行分析,则可以计算表型间的遗传相似度。

通过ldsc这款软件,可以方便地进行LDSC分析,源代码保存在github上,网址如下

https://github.com/bulik/ldsc

采用了conda来确保软件独立的安装环境,安装过程如下

git clone https://github.com/bulik/ldsc.git
cd ldsc
conda env create --file environment.yml
source activate ldsc

通过官网的wiki, 可以快速的掌握其用法,基本用法如下

1.  计算ld score

根据原始的分型结果,计算LD score, 输入数据为plink的二进制格式,代码如下

python ldsc.py  --bfile 22  --l2 --ld-wind-cm 1  --out 22

bfile参数指定输入的plink二进制文件,l2参数表示计算LD score值,ld-wind-cm参数指定计算LD的窗口大小,单位为1cM, out参数指定输出文件的前缀。

运行成功后,LD score值保存在后缀为l2.ldscore.gz的文件中, 内容如下

记录了每一个SNP位点的LD score值。值得注意的是,在计算LD score值时,每条染色体要分开计算。

2. 进行LDSC分析

第一步我们得到了LD score值,进行LDSC分析,我们还需要GWAS分析结果。该软件制定了一种后缀为sumstats的格式,用来存储GWAS分析结果,要求有以下5列

  1. SNP

  2. N

  3. Z

  4. P

  5. A1

  6. A2


SNP表示SNP ID, 比如rs号;N表示样本个数;Z表示SNP对表型的效应值,beta, OR, z-score等等; P表示pvalue;A1表示突变的Allele, A2表示参照的Allele。

该软件自带了脚本来格式化GWAS结果,生成sumstats格式的文件,用法如下

python munge_sumstats.py \
--sumstats gwas.txt \
--N 2000 \
--out test

格式转换之后,就可以进行LDSC分析了,用法如下

python ldsc.py \
--h2 test.sumstats.gz \
--ref-ld-chr ld_score_chr/ \
--w-ld-chr ld_score_chr/ \
--out test_h2

h2参数表示进行回归分析,估算遗传力;ref-ld-chr参数指定ld score值对应的目录,该目录下每条染色体的LD score为一个文件;w-ld-chr指定回归分析中每个SNP位点的权重,因为算法对这个权重不敏感,和ref-ld-chr保持一致即可,out参数指定输出文件的前缀。

在后缀为log的文件中保存了回归分析的截距以及遗传力,该软件同时还可以计算多个表型的遗传相似度,更多用法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  GWAS meta分析

  基因型填充

  CNV分析

对于TCGA的批量单因素回归分析,可以使用LDSC(Linkage Disequilibrium Score Regression)来评估混淆因素的占比,并判断GWAS结果中是否存在混淆因素。LDSC回归分析的截距可以反映混淆因素的存在与否。如果截距在1附近,说明没有混淆因素,如果超过这个范围,说明存在混淆因素。LDSC还可以评估遗传力的大小,可以通过LDSC的公式来计算。在相关的研究中,对LDSC的详细介绍可以提供更多信息。然而,对于TCGA的批量单因素回归分析,需要使用其他相应的工具来完成,如R中的survival分析包或者python中的statsmodels库,这些工具都提供了相应的函数和方法来进行批量单因素回归分析。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [LDSC:连锁不平衡回归分析](https://blog.csdn.net/weixin_43569478/article/details/108079805)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? km cox生存分析 多因素生存分析](https://blog.csdn.net/qq_52813185/article/details/127292138)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值