Nature Medicine | 常规机器学习构建蛋白质组衰老时钟!对于数学基础不好的同学,好好思考一下这种研究模式如何借鉴?

今天给各位老铁们分享一篇于2024年08月08号发表在 Nature Medicine [58.7] 的文章:"Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations",蛋白质组衰老时钟可预测不同人群的死亡率和常见与年龄相关的疾病的风险。

图片

DOI:10.1038/s41591-024-03164-7

摘要

背景循环血浆蛋白在人体健康中起着关键作用,并有可能用于测量生物年龄,从而预测与年龄相关的疾病、多发病和死亡的风险。

方法与结果:在这项研究中,作者使用 UK Biobank 中包含 2,897 种血浆蛋白的蛋白质组数据,通过 LightGBM 等机器学习模型开发了一个蛋白质年龄预测模型(领域术语: 蛋白质年龄时钟,age clock),并探讨了其在不同人群中预测重大疾病发病率和死亡率的作用。研究人员识别出了 204 种能够准确预测实际年龄的蛋白质,并发现蛋白质组老化评分与 18 种主要慢性疾病的发生(包括心脏病、肝病、肾病、肺病、糖尿病、神经退行性疾病和癌症)、多发病以及全因死亡风险相关。此外,蛋白质组老化还与生物、体力和认知功能的年龄相关指标相关,包括端粒长度、虚弱指数和反应时间。功能分析显示,对蛋白质组年龄时钟贡献最大的蛋白质涉及多种生物功能,包括细胞外基质相互作用、免疫反应和炎症、激素调节和生殖、神经元结构和功能以及发育和分化。在验证集: 中国(n=3,977)和芬兰(n=1,990)生物银行数据库中,蛋白质组年龄时钟的年龄预测准确度与其在英国生物银行中的表现相似。

结论:本研究结果表明,蛋白质组老化涉及多个功能类别的蛋白质,并且可以用于预测跨地理和遗传多样化人群的年龄相关功能状态、多发病和死亡风险。

所用数据

  • UKB(UK Biobank):来自45,441名随机选取的参与者(54%为女性,年龄范围39-71岁)的血浆蛋白质表达数据。这些数据用于开发蛋白质年龄钟模型。研究期间(11-16年的随访中),有4,828名(10.6%)参与者死亡。

  • CKB(China Kadoorie Biobank):在冠心病(IHD)病例队列研究中,使用了3,977名参与者(54%为女性,年龄范围30-78岁)的蛋白质表达数据。在11-14年的随访中,有1,426名(36%)参与者死亡。

  • FinnGen:从1,990名芬兰参与者(52%为女性,年龄范围19-78岁)中收集的蛋白质表达数据,这些参与者大多是健康人群。在研究期间,只有1%(n=22)的参与者在随访中死亡。

| 研究内容

1. 本研究的设计和主要分析方法

图片

▲ 图1:研究设计和分析方法概览。

  • a. 将UKB参与者按 70:30 的比例划分为训练集和测试集。在训练集中,使用LightGBM 模型通过 2,897 种血浆蛋白和五折交叉验证来预测实际年龄。使用 Boruta 特征选择算法筛选出 204 种与预测年龄相关的蛋白质,并使用这204种蛋白质重新训练了一个优化后的 LightGBM 模型,并在UKB测试集中进行评估。

  • b. 使用 CKB 和 FinnGen 的独立数据对蛋白质组年龄时钟模型进行进一步验证。

  • c. 使用全体UKB样本的五折交叉验证和 LightGBM 计算蛋白质预测年龄(ProtAge),并计算 ProtAge 与实际年龄的差值 ProtAgeGap。使用线性和逻辑回归测试 ProtAgeGap 与生物衰老标志物、虚弱程度以及生理和认知状态的关联。此外,使用 Cox 比例风险模型测试 ProtAgeGap 与死亡率、14种常见疾病和12种癌症的关联。由于 CKB 样本较小且 FinnGen 中缺乏疾病病例,大部分关联分析仅在 UKB 中进行。需要注意,计算模型预测年龄与实际年龄的差值 AgeGap 是大部分年龄预测模型的常见套路操作至于为什么要这么计算?以及后续为什么要分析这个差值与其它临床性状的关联,甚至将其作为一个评价指标?小编给出一些解释模型的预测是准确的(已被证明有效果),那么对于一个 AgeGap 比较大的样本(假设实际年龄 18,蛋白质模型预测年龄为 120),其虽然年龄小,但是具有老化的蛋白质组特征(简单理解就是,这个人的蛋白质特征与老头一样,即使实际年龄很小,但是看蛋白质指标的话,都要"入土"了 

2. 蛋白质组老化时钟在不同队列中的表现

图片

▲ 图2:蛋白质组老化时钟在不同队列中的表现。可以看到模型的拟合表现很不错,ProtAgeGap 得分在不同组别中并没有很大的异质性。

  • a. UKB、CKB 和 FinnGen 人群中年龄的密度图。

  • b. UKB、CKB 和 FinnGen 人群中死亡的密度图。

  • c. UKB 样本中所有疾病类型的流行和发病病例数。

  • d-f. UKB、CKB 和 FinnGen 三个测试队列中蛋白质组老化模型的表现。

  • g. ProtAgeGap 在不同队列中的分布。

  • h. ProtAgeGap 在不同人种的分布。

  • i. ProtAgeGap 在不同区域的分布。

3. 蛋白质组学衰老模型能够预测虚弱和衰老相关表型

图片

▲ 图3ProtAgeGap 与年龄相关的生物指标、身体机能的关联。

4. 蛋白质组学衰老是常见疾病的有力预测指标

图片

▲ 图4ProtAgeGap 将 UKB 和 CKB 中个体分为不同年龄特异性死亡率和疾病风险轨迹。

  • a-b. UKB 和 CKB 中按 ProtAgeGap 的上、中、下十分位 计算的疾病和死亡率累积发生图。每个小图显示每种疾病的发病例数,不同颜色的线段表示的仅是 ProtAgeGap 上、中、下十分位内的病例数而非完整数据集的病例数。UKB随访11-16年,CKB随访11-14年,按招募年龄(如a图中65岁年龄段显示的是招募时65岁年龄段人群在11-16年随访期间的累积发病率)。所有图中根据 Kaplan-Meier 生存函数显示给定时间点的事件累积密度,95%置信区间用浅色阴影表示。CKB 中仅显示在 ProtAgeGap 三个十分位内病例数皆超过 10 例的疾病。

图片

▲ 图5ProtAgeGap 与死亡率和常见疾病关联的效应值在调整协变量后基本保持不变。

还真没有什么复杂模型

如何借鉴一下这种研究思路

建模计算某种 Gap

使用 Gap 作为新的评价指标

当然,如果 Gap 有意义那就更好了

就分享到这了

  • 13
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值