在UK生物库中血浆蛋白质组学与遗传和健康关联

Crystallize_Malfoy

已于 2024-01-16 17:14:42 修改

阅读量2.6k

点赞数 28

分类专栏：蛋白组学文章标签：笔记

于 2024-01-15 22:34:26 首次发布

本文链接：https://blog.csdn.net/weixin_52137590/article/details/135608903

版权

蛋白组学专栏收录该内容

2 篇文章

订阅专栏

题目：Plasma proteomic associations with genetics and health in the UK Biobank

论文链接

摘要

制药蛋白质组学项目是一个竞争前的生物制药联盟，对54,219名英国生物银行参与者的血浆蛋白质组学特征进行了分析。在这里，我们提供了该计划的详细总结，包括技术和生物学验证，对蛋白质组疾病特征的见解，以及各种人口和健康指标的预测模型。我们展示了2,923种蛋白质的综合蛋白质数量性状位点(pQTL)定位，确定了14,287种主要遗传关联，其中81%以前未被描述，以及非欧洲个体的祖先特异性pQTL定位。该研究提供了血浆蛋白质组遗传结构的最新特征，并结合了随着样本量和蛋白质组学分析覆盖率随时间增加而预测的pQTL发现率。我们对跨多个生物域的反式pQTL提供了广泛的见解，强调了在多种细胞因子和补体网络中对配体-受体相互作用和通路扰动的遗传影响，并说明了ABO血型和FUT2分泌状态对胃肠道组织富集表达的蛋白质的长期上位性影响。我们通过将蛋白质靶点(如PCSK9)的遗传代理效应扩展到其他端点，并解开与COVID-19易感性相关的位点上受干扰的特定基因和蛋白质，证明了这些数据在药物发现中的实用性。这种公-私伙伴关系提供了科学界具有相当广度和深度的开放获取蛋白质组学资源，以帮助阐明蛋白质基因组学发现的生物学机制，并加速生物标志物，预测模型和治疗方法的发展。

引言

人类基因（遗传）研究意义：有助于加速药物发现和开发过程，包括识别和验证治疗靶点、预测药物干预的长期后果、改进临床试验的患者分层，以及重新利用现有药物。
基因（遗传学）研究局限 ==>与蛋白组学结合：全基因组关联研究（GWAS）经常涉及没有明确因果基因介导其影响的遗传变异，或与生物学或调节机制不清楚的潜在药物靶基因相关联；将人类遗传学与高通量、大规模蛋白质组学相结合：可能有助于弥合人类基因组与人类疾病之间的鸿沟，提供对人类当前健康状况的见解，并揭示生活方式和环境对疾病发病机理的影响。
蛋白组学现有研究 & UKB-PPP项目介绍

UKB-PPP特征概述

总览：54,219名受试，2941==>2923种蛋白
随机选取子集：最能代表总体UKBB
UKB-PPP联盟选取子集：平均年龄更大，女性比例更低，BMI更高，不吸烟者的患病率更低，种族背景组成不同，非白人参与者的比例较高
COVID-19 成像子集：更年轻，BMI更低，吸烟率更低，在性别、种族背景和血型方面与总体相当
后两者富集更显著

图1、UKB-PPP概述。a,样品设置和蛋白质测量。橙色方框表示每个队列(随机基线、联盟选取、COVID-19成像或组合)的人数。b，不同亚群的年龄分布。c, Q-Q图显示整个UKB队列与所有队列相比的富集P值，UKB-PPP样本和UKB-PPP随机选取的基线样本。采用双侧、未调整Fisher精确检验进行统计分析。d、不同年龄和性别的促卵泡激素β亚基(FSHB)和糖苷(PAEP)水平。

数据处理和质控

蛋白质面板：心脏代谢、炎症、神经病学、肿瘤学
蛋白质变异系数（CV）：在稀释因子中有所不同，检测限（LOD）

蛋白质组学与健康和疾病的联系

与人口统计学因素（年龄、性别、BMI）、健康负担、流行疾病以及肾功能和肝功能标志物

关联
预测

pQTL的发现

蛋白质基因组分析：独立的发现/复制亚组和非欧洲的祖先特异性亚组
顺式（cis）关联：距离编码蛋白质的基因 1 Mb 以内
反式（trans）关联：>1 Mb 来自编码蛋白质的基因
单个蛋白质相关：62%（2,326 / 3,760）
多效性位点：如 MHC、ABO、ZFPM2、ARHGEF3、GCKR、SERPINA1、SH2B3 和 ASGR1
MAF：次要等位基因频率

图2、pQTLs的遗传结构。a，全基因组pQTL的总结。底部，pQTL的基因组位置与编码蛋白质靶标的基因位置。红色，顺式pQTL;蓝色，反式pQTL。顶部，每个基因组区域的相关蛋白质靶标数量（轴上限为 100;标记相关蛋白质数量为 >100 的区域，括号中的数字）。b，每个蛋白质的主要pQTL数量（顶部）和每个基因组区域的相关蛋白质数量（底部）。c，顺式和反式关联对log[MAF]的对数绝对效应大小。这些线表示顺式（红色）和反式（蓝色）关联的线性回归斜率。d，主要顺式和反式pQTLs的遗传力分布和贡献。e，与样本量的主要关联数。数据平均值为±3标准差。f，主要pQTLs解释的方差占样本量的平均比例。g，一级关联数与测定蛋白数的关系。

pQTL的复制

复制队列：显著性保持、方向一致、效应量一致
完整UKB-PPP队列：pQTL定位，23,588 个主要关联

非欧洲pQTL定位

祖先特异性pQTL：非洲（AFR，n = 931）、中 /南亚（CSA，n = 920）、中东（MID，n = 308）、东亚（EAS，n = 262）和混合美洲（AMR，n = 97）
AFR：较高等位基因富集，中位数 $[MAF_{AFR} / MAF_{EUR}]=2.00$
CSA：变异型 rs202092481 导致 CD1C （Arg43Ter）中过早终止密码子，与 CD1C 水平显著降低相关；AFR：错义变体rs72938840（Arg59Gln）编码菱形蛋白酶 RHBDL2 ，在反式中与其裂解底物之一SPINT1 的浓度相关
共性：在SERPINA12位点都存在顺式原发性关联，次要 T 等位基因与较高的 SERPINA12 （vaspin）水平相关

与以往pQTL研究的比较

81%未被发现，反式pQTL比例更高

独立信号的识别和精细映射

29,420 个独立的 pQTL 信号：映射到顺式和反式区域的 10,750 个和 18,670 个信号
SuSiE（Sum of Sigle Effects，单一效应总和）回归

基于SNP的蛋白质遗传力

基于单核苷酸多态性（SNP）平均总遗传力：0.16
顺式主要pQTLs占20.5%，而反式pQTLs占10.4%
pQTL先导成分和多基因成分之间存在显著相关性

反式位点的蛋白质相互作用和通路

反式结合揭示了反式位点基因的蛋白质产物与靶蛋白的相互作用，且这些基因通常与靶蛋白位于同一通路内，可调节靶蛋白水平。

图3、反式pQTLs突出显示的通路网络示例。a，反式pQTL如何作为与测试蛋白质（蛋白质X）相同的蛋白质-蛋白质相互作用或途径的一部分发挥作用的示意图。左上角，所涉及的蛋白质可能直接相互作用，也可能作为同一途径的一部分间接参与。下图为反式中相应基因发现的反式pQTL（除了潜在的其他信号和调节蛋白X的顺式关联）。右上图，反式pQTL可能调节靶蛋白（蛋白X）的一些机制，包括：（1）调节结合伴侣（Y，Z）的水平，进而影响蛋白X水平;（2）改变Y/Z与X的相互作用;（3）调节 Y/Z 可能位于蛋白 X 上游/下游的通路组分。该图是使用 BioRender 创建的，包括对“全基因组关联研究原理”的改编。b，IL-15信号通路。星号表示具有 IL-15 反式 pQTL 的基因（主要关联 SNP 以红色显示）。该图是使用 BioRender 创建的，包括对“血小板生成素受体信号传导”的改编。NK，自然杀手。c，双向反式pQTL对的例子。P 值来自 REGENIE 回归 GWAS（双侧，未调整）。橙色和蓝色实心箭头代表TNFSF13B和TNFRSF13C的顺式pQTL;梯度线表示TNFSF13B变异对TNFRSF13C蛋白水平的反式效应，以及TNFRSF13C变异对TNFSF13B水平的反式效应。d，补体通路。反式pQTL和相关蛋白以红色显示。该图是使用 BioRender 创建的。b 和 c 中的箱形图显示了中位数（中心线）、第一和第三四分位数（箱形限制）以及 1.5×第三和第一四分位数（上须和下须）上方和下方的四分位距。n = 52,363 个独立样本。

反式关联：BAG3 位点的 HSPB6 反式 pQTL （rs2234962;Cys151Arg），MB、MYOM3、MYBPC1、MYL3、proBNP和NT-proBNP-->心肌病
- BAG3：通过 BAG3-HSP70-HSPB 复合物发挥作用，既往心肌病 GWAS 中发现的相同 BAG3 信号（rs2234962）
- 心力衰竭&心脏损伤的既定生物标志物：ProBNP 和 NT-proBNP
- 肌细胞（MB）/肌原纤维蛋白：MYOM3、MYBPC1 和 MYL3
- rs2234962错义变异：影响 BAG3 水平和 BAG3-HSPB6 复合物，导致心肌蛋白、心力衰竭下游血液生物标志物的下游扰动，并可能影响心肌病的风险

深入了解细胞因子相互作用

受体-配体相互作用实例
双向反式pQTL对：一个位点既是蛋白A的顺式pQTL，又是蛋白B的反式pQTL，第二个位点是蛋白B的顺式pQTL和蛋白A的反式pQTL。

补体级联反式pQTL网络

在补体通路中，我们发现在与测试蛋白质相同的补体通路中，不同成分的基因中存在多个反式 pQTL。

pQTL关联的扩展

关联数量如何与样本量和蛋白质数量进行缩放

pQTL的敏感性分析

血细胞组成、BMI、采血前季节和禁食时间对pQTL效应和蛋白质方差的影响

与表达QTL共定位

使用 coloc 和 SuSiE 框架进行共定位分析，以确定循环蛋白 QTL 与来自 GTEx 联盟（v8）的组织水平表达 QTL 之间的共享遗传关联

药物靶点和疾病生物学应用

如何使用该蛋白质组学数据集来提供对健康和疾病中蛋白质和通路扰动的见解，并为治疗靶点的发现和开发提供信息。

ABO 血型和 FUT2 分泌器状态之间的功能性遗传相互作用如何影响人类和小鼠胃肠道组织表达富集的蛋白质，这可能在胃肠道疾病中受到干扰
多性状共定位可应用于 COVID-19 相关位点，以解开共享和不同的蛋白质通路
常见的遗传变异在炎症小体介导的先天免疫反应中具有微妙但显著的作用
大规模蛋白质基因组学研究可以提高遗传仪器在孟德尔随机化中的作用和可用性，模仿临床试验中观察到的药物靶标效应

图4、ABO血型FUT2分泌状态相互作用。a、四种互作效应最显著的蛋白按血型和分泌状态的蛋白水平。箱形图显示了中位数(中线)、第一和第三四分位数(箱限)，以及第三和第一四分位数上下的1.5倍四分位数间距(上须和下须)。N = 52363个独立样本。b，富集编码显著相互作用蛋白的基因(P < 1.7 × 10-5)，在各种人(左)和小鼠(右)组织中表达。柱状图上方的数字表示使用单侧超几何富集试验计算的未经调整的P值;蓝色条表示多次检验校正后的显著性。E14.5，胚胎第14.5天。

讨论

样本量：pQTL的发现如何随着样本量和蛋白质组覆盖率的增加而扩展？大规模研究的大部分收益将通过检测与较小的多基因效应、罕见关联、与以前未测试的蛋白质的关联以及血液以外的组织或样本基质中的关联来推动。
非欧洲祖先：在未来的pQTL定位研究中优先考虑代表性不足和遗传多样性的人群的价值，优先考虑重新采样计划和纵向分析
扩展了下游孟德尔随机化的遗传仪器目录和用于多性状共定位的相关基因组位点，促进了更系统的因果推断和治疗靶点发现研究，这超出了竞争前行业合作的范围。

方法

非遗传关联

多元线性回归
年龄、性别、BMI、技术因素（批次、UKB 中心、UKB 阵列类型、UKB-PPP 亚队列（随机选择的基线/联盟/COVID-19 成像参与者）和 20 个遗传主成分，以及血液采样和蛋白质测量之间的时间）

蛋白质组学预测模型

80%训练，20%测试
Least absolute shrinkage and selection operator (LASSO) 模型
年龄、性别、BMI、AST、ALT、eGFR（estimated glomerular filtration rate，估计肾小球滤过率）和ABO血型

基因数据处理

检查：性别不匹配、性染色体非整倍体和杂合性
过滤： INFO > 0.7 的插补遗传变异
提升：使用 LiftOver 将染色体位置提升到 hg38 构建

遗传关联分析

两步GWAS分析：
1. “留一染色体”（LOCO）：基于遗传数据进行个体性状预测，高质量的基因分型变体：MAF > 1%，MAC > 100，基因分型率> 99%，Hardy-Weinberg 平衡检验 P > 10−15、<10% 缺失率和连锁不平衡（LD）修剪（1,000 个变体窗口、100 个滑动窗口和 r2< 0.8）
2. 标准线性回归：变异关联分析，LOCO表型预测用作偏移量
限制：INFO > 0.7和MAC>50的变体；INFO > 0.7 和 MAC > 10（祖先特异性分析中）
反向归一化：对单个蛋白质水平（NPX）进行反向归一化
协变量：年龄、年龄2，性别，年龄 × 性别，年龄2×性别、批次、UKB 中心、UKB 基因阵列、血液采样和测量之间的时间以及前 20 个遗传主成分；+参与者是否被 UKB-PPP 联盟成员或作为 COVID-19 重复成像研究的一部分预先选择（复制和完整队列中的协变量以及遗传祖先特异性分析）

重要基因座的定义和细化

多重比较校正阈值确定显著性：P < 1.7 × 10−11（5 × 10−8针对 2,923 种独特蛋白质进行调整）
定义主要关联：使用PLINK在显著变异周围聚集±1 Mb，不包括 HLA 区域（6 号染色体：25.5-34.0 Mb）
“哨兵”：P值最低
确定与多种蛋白质相关的区域：从最显著的关联开始，迭代地将与包含与所有蛋白质的显著边际关联重叠的主要关联的蛋白质相关的区域组合在一起（P < 1.7 × 10−11)，直至收敛

变体注释

注释工具：Ensembl变异效应预测器（VEP）、WGS注释器（WGSA）、 RefSeq+Ensembl （基因/蛋白质结果）、UCSC基因组浏览器的变异注释积分器
报告了变异体所属的外显子和内含子数，如经典转录本中所示
同义突变：根据功能丧失的比率估计了基因不耐受的等级和随之而来的疾病易感性
编码变体：估计蛋白质序列变化的 SIFT 和 PolyPhen 评分
非编码变体：
- 将转录因子结合位点、启动子、增强子和开放染色质区域，定位到来自 DNA 元素百科全书项目（ENCODE）和 ROADMAP 表观基因组学图谱联盟的组蛋白标记 chip-seq、ATAC-seq 和 DNase-seq 数据
- 估计组合注释依赖性耗竭评分
基因间变异：绘制了 5' 和 3' 附近的蛋白质编码基因，并提供了到变异的距离（从蛋白质编码基因的 5' 转录起始位点）
富集分析超几何测试：估计相关 pQTL 变异在特定后果或调控基因组区域的富集

与先前鉴定的pQTL进行交叉引用

已发表的pQTL研究列表
复制定义：先前相关的前哨变异蛋白对落在同一蛋白的发现集pQTL前哨变异的1 Mb窗口内，并且r²≥0.8，且该区域存在任何显著的SNP

独立信号的识别和精细映射

SuSiE（Sum of Sigle Effects，单一效应总和）回归
- 初始参数：min_abs_corr=0.1、L = 10、max_iter=1000
- 输入：以均值为中心和单位方差的基因型和表型残差
- 协变量：与边际关联分析相同
- 解释多基因效应和样本相关性：从表型残差中减去 REGENIE LOCO
- 评估统计独立性：对于具有多个可信集的区域，执行多元线性回归
潜在长程 LD 的动态测试区域：使用 PLINK 执行了两步结块程序
1. 边际关联汇总统计量：--clump-r2 0.1 --clump-kb 10000 --clump-p1 1.7x10−11 --clump-p2 0.05
2. 第一个聚集步骤的结果：--clump-kb 500

遗传力分析

SuSiE回归：使用每个位点的每种蛋白质（pQTL成分）的SuSiE分析从独立的pQTL解释的方差总和
LD评分回归：使用全基因组SNPs（不包括每个蛋白质的pQTL区域）的多基因成分

通路富集和蛋白质相互作用

通路富集：多效性pQTL位点和多个相关的反式pQTL蛋白
- 目的：确定与细胞间信号传导、细胞发育、发育和过程相关的生物学功能富集
- 方法：独创性通路分析进行基因集富集分析；基于STRING-db和KEGG通路数据库注释的基因通路和网络
- 统计显著性：超几何检验
- 总结重叠：分层聚类树和网络
- 纠正多重测试：错误发现率（FDR）< 0.01
蛋白质相互作用：
- 目的：反式 pQTL 位点是否包含至少一个编码与测试蛋白质相互作用的蛋白质的基因（在反式 pQTL 的 1 Mb 范围内）
- 数据库：人类整合蛋白质-蛋白质相互作用参考（HIPPIE）

子抽样分析

关联数量如何与样本量成比例
关联如何与测量的蛋白质数量成比例：丰度稀释度

敏感性分析

血细胞计数的影响

血细胞组成对血浆蛋白遗传关联的影响
- 血细胞协变量：单核细胞计数;嗜碱性粒细胞计数;淋巴细胞计数;中性粒细胞计数;嗜酸性粒细胞计数;白细胞计数;血小板计数;红细胞比容百分比;和血红蛋白浓度
- 排除：具有极端值或相关医疗条件的个体的血细胞测量值
血细胞组成是否部分或全部介导变异-蛋白质关联的遗传关联
- 路径：基因型→血细胞测量→蛋白质
- 与蛋白质水平相关的血细胞表型：在多变量线性回归模型（血细胞表型作为预测因子，蛋白质作为结果）中，P < 1.7 × 10−11
- 是否存在关联：
  1. 遗传变异（剂量）与每种血细胞表型（基因型→血细胞）之间
  2. 血细胞表型与蛋白质（血细胞→蛋白）
- 基因型→蛋白质的强度比较
  - 多变量模型：蛋白质 ~ 剂量 + 血细胞表型 + 发现协变量
  - 完全（P > 0.01）还是部分（P < 1.7 × 10−11）

BMI的影响

附加协变量

采血时季节和禁食时间的影响

采血季节：夏季/秋季（6 月至 11 月）与冬季/春季（12 月至 5 月）
禁食时间：标准化（Z - score）

共定位分析

我们使用 coloc with SuSiE 框架研究了直接影响循环蛋白表达水平和组织水平基因表达的变异之间共享遗传关联的证据61.对于在边际 eQTL 关联中具有显着结果的基因，我们使用 GTEx 的 49 个组织的个体水平基因型和表型数据应用 SuSiE 回归31v.8 定义独立的 eQTL 信号，使用与 GTEx 联盟旗舰论文相同的样本、变异、协变量、TSS 周围的 ±1 Mb 窗口和归一化基因表达矩阵。然后，我们使用默认先验在独立的顺式 pQTL 和 eQTL 信号之间进行成对共定位分析，并考虑了共定位的后验概率（PP.H4） ≥ 0.8 作为共享的遗传关联。对于成对共定位的pQTL-eQTL信号，我们使用每个pQTL信号的顶级变体来比较条件效应估计对蛋白质和基因表达的方向性。
对于与 COVID-19 位点的共定位，COVID-19 宿主遗传学联盟（Covid-19 HGI Browser）报告的顶级位点更新了 R7 汇总结果（COVID19-hg GWAS meta-analyses round 7）对 COVID-19 住院病例和报告的 COVID-19 感染与人群对照组的估计。我们使用了 HyprColoc64区域关联阈值为 0.8，可对每个疾病位点的所有重要蛋白质进行多性状共定位。

ABO血型和FUT2分泌器状态分析

ABO血型：是据先前开发的UKB（https://biobank.ndph.ox.ac.uk/ukb/field.cgi?id=23165）中的血型归因为中的三种SNP（rs505922、rs8176719和rs8176746）通过遗传数据进行归因.
FUT2 分泌：源状态由失活突变（rs601338）决定，基因型 GG 或 GA 为分泌源，AA 为非分泌源。测试血型（O作为参考组）和分泌者状态之间的交互项，分别调整与每种蛋白质的主要pQTL分析中相同的协变量。P < 1.7 × 10 的多重检测阈值−5（0.05/2,923 个蛋白质）用于定义具有统计学意义的交互作用效应。

富集组织中的基因表达

工具：TissueEnrich R 软件包（v.1.6.0），Olink面板
数据集：人类蛋白质图谱中的RNA数据集

PCSK9孟德尔随机化

仪器选择和结果

选择：全基因组相关性的顺式变异（PCSK9基因编码区1 Mb以内）生成代表PCSK9丰度改变的仪器（P < 5×10−8）
- LD聚集：以确保SNPs是独立的（r²< 0.01）
- F统计量：去除<10，以避免弱仪器偏差
结果：
- 胆固醇的测量：低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、甘油三酯和总胆固醇
- 冠心病和心肌梗塞
- 缺血性卒中、大动脉粥样硬化和小血管亚型

孟德尔随机化分析

我们对协调效应进行了双样本孟德尔随机化，以估计遗传代理的 PCSK9 丰度对感兴趣结果的遗传易感性的影响。我们使用 Wald 比率的两项泰勒级数展开和加权 delta 逆方差加权方法估计每个个体变异的影响，以荟萃分析单个 SNP 效应以估计 Wald 比率的综合效应。使用标准敏感性分析分析孟德尔随机化分析的结果。我们使用Steiger滤波来提供证据，证明估计的效应是否正确地定向于PCSK9丰度到结局，而不是由于反向因果关系。