GWAS进展-文献总结--15年GWAS研究回顾

文章探讨了基因组广泛关联研究(GWAS)15年的发展,强调了大样本量在揭示重要关联中的作用。多基因预测的准确性受遗传力、SNP效应大小和捕获的影响。GWAS在人群中迁移性的挑战涉及群体遗传差异和环境因素。同时,GWAS用于解析复杂性状的遗传结构,孟德尔随机化作为推断因果关系的工具。然而,临床应用面临个体变异外显率低、LD限制和基因-环境交互作用等问题。文章呼吁扩大GWAS的人口覆盖范围以提高预测准确性,并理解群体间的遗传差异。
摘要由CSDN通过智能技术生成

Abdellaoui A, Yengo L, Verweij KJH, Visscher PM. 15 years of GWAS discovery: Realizing the promise. Am J Hum Genet. 2023 Feb 2;110(2):179-194. doi: 10.1016/j.ajhg.2022.12.011. 

1. 增加的大样本量显著增加了重要关联的数量

1.1. 仍需要为特定疾病提供更专业的研究

尽管生物库中的样本量很大,但针对一种特征或疾病的样本相对还是少。

1.2. 降低了meta分析的优势

大型生物库协调了表型定义,以及最小化批量效应。

可以利用生物库中存在的表型包含的信息(近亲等)。

2. Polygenic predictors多基因预测

预测人类可遗传性状的遗传倾向。其准确性受性状遗传力、基因组位点捕获、单个SNP影响评估程度 的影响。

2.1. 定义

常用‘‘effect size’’ (σPGS),来量化多基因评分(polygenic score)的准确性,它表示预测因子(PRS)每变化一个SD,表型SD的变化。(the change in phenotypic standard deviations (SDs) per SD of the predictor)(σPGS*σx= R*σy,R2即polygenic score所解释的表型方差,σx=1,σy即表型标准差SD,(σPGS即系数β))


SNP的effect size是指GWAS关联分析中,基因型与某一表型线性回归模型的系数,代表了每个SNP对该表型的影响。后续作为该SNP的权重,应用到polygenic score的计算中,然后根据其训练集中polygenic score与表型的关联(回归),得到polygenic score的effect size,也即该回归模型的系数β,反映了多个SNP组合成的多基因评分模型对目标表型的预测能力。而R2拟合优度即该模型拟合的自变量(polygenic score)能解释的表型方差。


大样本量 ---> 预测精度的增加,效应大小的增加。

2.2. 举例

身高的σy = 6.5,可遗传力 h2 = 0.8,假设确定了所有的身高遗传因素,却无误差的估计了effect size,多基因评分预测结果的标准差可表示为:σy\sqrt{1-R^2},则实际身高在多基因评分预测值两端的变化将为:6.5 * \sqrt{1-0.8} = 3cm。相当于约12cm的95%CI。

3. GWAS在人群中的可迁移性

群体 遗传差异 & 环境差异

单倍型频率差异(标记与causal SNP的 LD差异)、效应大小的差异

4. GWAS解决的问题

4.1. fine-tuning the genetic architecture of complex traits

复杂性状的遗传结构:影响复杂性状发生发展的遗传因素的整体组合和相互作用。(SNP频率和effect size)

GWAS能够很好的捕捉常见遗传变异的影响,但检测到的变异中大部分都是罕见变异(MAF<1%),其大部分对疾病风险几乎没有影响。相对于常见变异GWAS,检测罕见变异关联所需要的样本量更大。

4.2. 自然选择推测

复杂性状存在负选择,即具有较大effect size的等位基因,保持在较低频率。(对于某个基因型或突变的个体,其生存或繁殖能力相对较低,因此这种基因型或突变在群体中的频率会逐渐减少)

负选择产生了依赖于LD的遗传结构。负选择导致有害基因型在群体中的频率降低,由于LD,与这些基因型相关的其他位点的频率也会受到影响。在负选择的区域内,多个位点之间的遗传变异相互关联,它们的遗传效应可能共同作用于表型,形成一个连锁的遗传结构。

(当LD水平较低时,不同位点的遗传变异往往独立地对表型产生影响,而不受其他位点的影响。即每个SNP都有更大的机会独立地对表型进行解释(LD低的SNP --> 解释更多的遗传力))

(LD水平较高的基因组区域意味着不同位点之间的遗传连锁关系较强,即这些位点之间的遗传信息高度相关。在高LD区域,多个位点可能共同携带相似的遗传信息,因此这些位点对表型的解释能力可能重叠或重复,导致它们共同解释的遗传力较高,但单个位点的效应可能无法独立地解释表型变异。)

4.3 孟德尔随机化MR及应用

使用遗传变异(SNP)作为工具变量IV,代替暴露,模拟随机对照试验RCT,来推断暴露与结局的因果关系。

!!! SNPs一定是因,暴露或结局只能是果。

利用GWAS结果,找到与暴露显著相关的SNPs,再分析这些SNPs是否与结局有相关关系(根据GWAS可以得到);若它们与结局有相关关系,说明影响暴露的SNPs也会影响结局,即改变SNPs(不同暴露下),结局发生改变,暴露和结局有因果关系。若这些SNPs与结局无相关性,说明影响暴露的SNPs不会影响结局,即改变SNPs(不同暴露下),结局不发生改变,暴露不会改变结局。

5. GWAS与临床

挑战:

个体变异的penetrance外显率低(携带特定基因突变的个体表现出该疾病的程度);

LD限制了基因组分辨率;

GWAS找到的SNP大部分落在非编码区,很难关联 SNP与功能基因;

基因-环境互作,以及广泛的基因多效性,使得相关性状的鉴定更复杂。

6. 后续讨论

6.1. 扩大GWAS数据收集的  人口覆盖范围;种群多样性,扩大环境暴露范围,

(限制了在不同环境下和跨谱系研究性状遗传结构的能力。限制了跨人群多基因预测的准确性)

1)通过解释LD差异来提高PRS在不同谱系之间的预测能力------不能完全解决由于群体之间的环境文化差异导致的可迁移性不足的问题。

2)了解群体间复杂性状(特别是疾病及其风险因素)的平均表型差异 是否部分由遗传差异驱动。

3)疾病流行率(不同人群的患病率)和性状均值(不同人群在某性状的均值)的群体遗传差异(也即遗传分化),可能来自自然选择(影响个体生存和繁殖,来塑造群体基因频率和性状分布)、遗传漂变(可能会影响整个基因组区域的遗传结构,包括连锁位点之间的连锁程度)、基因流动(交配)、演化随机性等。

4) 在两个种群之间进行比较时,根据只在两个种群之一进行的GWAS计算出的多基因分数,会出现隐含的表型平均分化现象(不同群体之间,某个特定性状的平均表现/表型值 不同)。

PRS计算并用于表型预测时,由于群体基因频率差异,PRS在不同群体中的预测效果可能不同。

针对每个群体进行单独的GWAS和PRS计算,以确保参考基因型和效应大小的一致性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值