LDSC:连锁不平衡回归分析

欢迎关注”生信修炼手册”!

LDSC全称如下

linkage disequilibrium score regression

简称LDSR或者LDSC, 在维基百科中,对该技术进行了简单介绍。通过GWAS分析可以识别到与表型相关的SNP位点,然而严格来讲这个结果并不一定真实客观的描述遗传因素对表型的效应,因为其结果是由以下两个因素共同构成的

  1. polygenic effects, 基因对表型的效应

  2. confounding factors, 混淆因素,比如群落分层,样本间隐藏的亲缘关系等等

尽管我们在GWAS分析中,可以通过协变量来校正群落分层等因素,但是混淆因素是无法完全消除的。为了保证分析结果的准确性,我们就需要评估GWAS分析结果中以上两个因素的占比,只有当混淆因素占比很低时,才能说明我们的分析结果是可靠的,此时我们就可以通过LDSC来探究这个混淆因素的占比。

LDSC本质是一个线性回归,其输入数据为GWAS的分析结果,回归的自变量为SNP位点的LD score值,因变量是该算法的核心,自定义的一个符合卡方分布的统计量,通过线性回归拟合LD score和卡方统计量的关系,从而判断GWAS分析结果中是否存在混淆因素。

首先来看下自变量LD score, 对于一个SNP位点,其LD score定义该位点与其邻近位点的连锁不平衡R2的总和,公式如下

对于一个SNP位点j, 取其邻近位点,通常是指定一个固定窗口,比如1CM遗传距离,计算该窗口内的其他位点与该位点的连锁不平衡情况下,用R2相加即得到了该位点的LD  score。然后再来看下因变量,公式如下

其中N为样本总数,M为窗口内的其他SNP位点数,是遗传力,这几个值为常数,从公式可以看出,卡方统计量和LD  score之间是一个线性关系,而且对应到图像上,其截距为1。上述公式是只考虑遗传效应的前提下得到,如果存在混淆因素,那么最后的截距就不是1了。

通过LDSC回归分析的截距,可以判断GWAS结果中是否存在混淆因素。如果截距在1附近,说明没有混淆因素,如果解决超过这个范围,说明有混淆因素的存在。同时公式中涉及到了遗传力,通过LDSC也可以评估遗传力的大小。
在下面这篇文章中,对LDSC进行了详细介绍

https://www.nature.com/articles/ng.3211

文章中通过模拟数据演示了LDSC的作用,如下图所示,左侧为存在群体分层时的QQ图,右侧为不存在混淆因素的QQ图

对于这两个GWAS结果,分别进行LDSC回归分析,结果如下

可以看到,存在混淆因素时,截距在1.3左右,而不存在时的,截距在1左右。

针对单个表型的GWAS分析,LDSC可以鉴定是否存在混淆因素,估计遗传力的大小;对于多个表型,则可以根据对应的卡方统计量,计算表型间的遗传相似度。

关于LDSC的分析,有一个同名软件,网址如下

https://github.com/bulik/ldsc

后续会详细介绍其用法。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  GWAS meta分析

  基因型填充

  • 9
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
对于TCGA的批量单因素回归分析,可以使用LDSC(Linkage Disequilibrium Score Regression)来评估混淆因素的占比,并判断GWAS结果中是否存在混淆因素。LDSC回归分析的截距可以反映混淆因素的存在与否。如果截距在1附近,说明没有混淆因素,如果超过这个范围,说明存在混淆因素。LDSC还可以评估遗传力的大小,可以通过LDSC的公式来计算。在相关的研究中,对LDSC的详细介绍可以提供更多信息。然而,对于TCGA的批量单因素回归分析,需要使用其他相应的工具来完成,如R中的survival分析包或者python中的statsmodels库,这些工具都提供了相应的函数和方法来进行批量单因素回归分析。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [LDSC:连锁平衡回归分析](https://blog.csdn.net/weixin_43569478/article/details/108079805)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? km cox生存分析 多因素生存分析](https://blog.csdn.net/qq_52813185/article/details/127292138)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值