顶刊BMJ推荐！临床预测模型外部验证详细步骤

妙趣横生统计学

已于 2024-05-06 14:18:14 修改

阅读量4.6k

点赞数 27

文章标签：真实世界研究数据分析

于 2024-04-30 11:33:45 首次发布

本文链接：https://blog.csdn.net/weixin_44693403/article/details/138363360

版权

详情请点击下方：

培训 | 医院回顾性数据分析与预测模型一对一高级学习班，快速掌握R语言分析技巧

顶级医学期刊BMJ在2023年底陆续发布了三篇临床预测模型评估指南，为研究人员开展临床预测模型研究提供了权威的参考资料。本系列推文的第1篇介绍了BMJ指南中几类模型内部验证的方法以及外部验证研究的意义。

第1篇：顶级期刊BMJ最新临床统计指南：为什么我们需要验证预测模型？

本文为系列推文第2篇，我们将继续围绕指南内容，具体谈谈如何开展外部验证研究及关键步骤，并侧重于统计方法的实现。

原文PDF获取方式：本公众号回复关键词“原文”

何为外部验证？

外部验证研究是预测模型研究的一个重要部分，但往往被忽视。外部验证，指在一个不同但相关的数据集上对模型的预测性能进行评估，且该数据集在模型开发过程中未使用过。外部验证过程不涉及重新调整模型，目的是量化最初模型的预测准确性。

验证过程涉及五个关键步骤：

获取合适的数据集
结果预测
评估预测性能
评估临床实用性
明确报告研究结果

在本推文中，我们将结合实际案例分析这些步骤的内容。

步骤一：为外部验证获取高质量数据集

1.外部验证数据集应考虑哪些质量问题？

外部验证研究的第一步是获取合适的高质量数据集。从流行病学研究的角度考虑：

前瞻性研究所收集到的数据，质量高，适合进行外部验证，但更为耗时且昂贵。
现有的医疗数据库（如电子健康记录）方便获取，但同样需要注意数据质量问题（如缺失值、结局或预测因子测量方法不能反映实际做法，或未记录事件发生时间等）。

需要注意，部分数据库有特定的纳入标准，其内部的病例组成可能比目标人群更局限；例如，英国生物库是一个高度选择性的队列，仅包含年龄在40岁至69岁之间的个体，因此，使用该数据集进行外部验证则无法将模型的有效性外推至更广泛的人群（年龄小于40岁或大于69岁的人）。

为帮助研究者判断现有数据集是否适合用于外部验证研究，BMJ指南建议参考"预测模型偏倚风险评估工具"（PROBAST）中关于研究对象筛选、预测因子和结局的三个因素，以明确外部验证数据集的内容和质量是否符合研究目的。例如：

数据集的纳入和排除标准应与目标人群和模型使用环境相匹配；
在预测起始时间点或之前就有预测因子的测量数据；
预测因子和结局的测量方法能对应医学实践；
并具有适当的随访信息，以涵盖结局预测所关注的时间点；
有适当的样本量，以确保对预测效果的精确估计；
缺失数据量最好较少。

2.外部验证数据的筛选三要素

要素一：参与者的选择

1.数据源的来源是否合适？——例如，用于预后预测模型研究的数据应来自队列或随机试验，诊断预测模型研究的数据应来自横断面研究

2.所有参与者的纳入和排除是否适当？

要素二：预测因子

1.预测因子在所有参与者中是否进行了类似的定义和测量？

2.预测因子是否在不了解结局数据的情况下进行了测量？

3.所有预测因子是否都可用于验证模型？

要素三：结局

1.结局的判定是否恰当？

2.结局的定义是否预先设定或规范？

3.结果的定义是否排除了预测因子？

4.在所有参与者中，结局的定义和判定是否相似？

5.结局数据是在不了解预测信息的情况下判定的吗？

6.预测因子测量与结局判定之间的时间间隔是否恰当？

3.预测模型的外部验证应使用什么样的人群和环境？

外部验证的价值在于重点评估模型在目标人群的有效性，使验证研究能够代表模型计划实施的目标人群和环境。一般来说，验证研究主要针对与开发模型相同的人群和环境，但也可评估模型在不同目标人群或医疗环境中的表现。例如，诺丁汉预后指数（NPI）对乳腺癌预后的预测性能已在许多外部验证研究中完成了评估。越多的外部验证证实模型在不同人群和环境中的性能良好，该模型就越有可能在未经测试的人群和环境中发挥效果。

大多数外部验证研究都是基于方便获取的数据，例如既往研究中已经获得的数据或易于在当地收集的数据。因此，这些研究通常只评估模型在特定目标环境或人群中的表现。为帮助明确外部验证的范围，Debray等人建议研究人员应量化开发数据集与验证数据集之间的相关性，并明确外部验证的重点是“可重复性（Reproducibility）”还是“可移植性（Transportability）”。

可重复性是指外部验证数据集与模型开发数据集来源的人群和环境是否相似。
相反，可移植性与在预期的不同人群或环境中进行外部验证有关（如从初级医疗机构数据转移到二级医疗机构数据时），此时预测因子的效应和病例特征与原始开发数据集可能存在差异，因此模型性能通常会发生变化。

4.外部验证数据集需要记录哪些信息？

外部验证数据集至少必须包含模型进行预测和结局比较所需的信息。数据集应包含每个参与者的相关结局和模型中任何预测因子的值。对于生存结局，还应记录任何删失时间和任何结局发生的时间。结局数据应依靠可靠的测量方法，预测因子信息必须反映模型在医学实践中的应用方式和时间。例如，如果要在手术前使用模型预测术后28天的死亡率，则应使用手术前可用的预测因子，而不是任何围手术期或术后预测因子。

步骤二：根据模型进行预测

一旦敲定用于分析的外部验证数据集，下一步就是使用现有的预测模型，计算外部验证数据集中每个参与者的预测值。这一步不应该由人工完成，而应借助代码，通过编程将模型应用到外部验证数据集中，计算出预测结果值。但对于某些基于人工智能（黑盒）或机器学习方法的模型，它们只能作为软件对象直接使用，或通过特定的系统或服务器访问。

图1展示了BMJ指南中使用GUSTO-I数据库中美国西部子集（2188人，135个事件）开发的预测模型案例，该模型可估算急性心肌梗死后30天内的死亡概率。该逻辑回归模型包括8个预测因子。为说明该模型的外部验证，案例使用了GUSTO-I数据集（来自杜克临床研究所）的剩余数据，其中包含所有八个预测变量和38642人的结果信息。当计算出每个参与者的预测值后，最好将其观察到的分布总结为直方图，并使用平均值和标准差等汇总统计数据。

图1. 模型预测值随线性预测因子的变化分布图；

GUSTO-I数据集全部用于验证（左）；

GUSTO-I数据集中急性心梗后30天内死亡/未死亡人群进行分别验证（右）

步骤三：量化模型的预测性能

第三步是量化模型在整体拟合、校准和区分度方面的预测性能。这一步需要合适的统计软件

1.整体拟合效果

R2常用于量化连续性结局预测模型的总体性能，含义为能用模型解释的结果值总变异的比例，数值越接近1代表模型的预测效果越好。通常情况下，R2乘以100即为模型所解释变异的百分比。

对于连续型结局，可通过计算参与者的观察结局与模型估计结局之间的平方差均数来进行外部验证。
对于二分类或生存结局，除均方误差（MSE）指标外，还可采用Brier评分（衡量模型预测的结局可能性和实际观察结局之间的差异）。

表1中的案例显示了急性心肌梗死后30天内的死亡概率模型的性能评估结果。

表1.急性心肌梗死后30天死亡风险预测模型拟合效果检验

2.校准图

校准(Calibration)指评估观察到的事件概率与模型估计的事件概率（风险）是否一致。虽然个体的事件（是否发生了结局事件）概率无法被观测，但仍可通过使用所有个体的观测结果和模型估计的事件概率，绘制出平滑的校准曲线（图3），来检查预测概率和观测概率的一致性。

在外部验证时，预测值和观察值之间可能会出现一些错误校准。

验证数据集与开发数据集的差异越大（例如，在人群病例组合、结果事件比例、预测因子的时间和测量、结果定义等方面），发生错误校准的可能性就越大。
同样，使用低质量方法（如小数据集、无代表性样本、无惩罚性回归而非惩罚性回归）开发的模型在外部验证时发生错误校准的可能性也更大。

校准应覆盖预测值的整个范围（如0到1之间的概率），并对每个预测相关时间点进行检查。校准应使用校准图进行可视化，将外部验证数据集中的观测值与预测值进行比较，校准图必须包括平滑的校准曲线（带有置信区间）。

校准曲线能提供更全面的信息。

对于连续性结局，可以通过校准图和平滑曲线对比研究参与者的观察值（y 轴）与模型预测值（x 轴）。
对于二分类或生存结局，可以添加观察到的事件概率（y 轴）与模型估计的事件概率（x 轴）的对比，例如，根据模型预测值来定义10个或20个组，来补充（而不是替代）平滑校准曲线。

然而，许多研究人员往往只报告特定分组的校准情况，而不报告整个范围内的校准曲线。主观的分组可能混淆对特定预测值范围内有统计学意义的校准误差。

校准图应以正方形格式显示，且坐标轴不应扭曲。不应改变其中一个坐标轴的比例，或在数值范围内设置不均匀的间距，因为这可能会掩盖特定区域的校准误差。研究人员还应在校准图下方添加预测值的分布，以显示验证数据集中预测值的分布，甚至可以分别显示每个事件组和非事件组的预测值。

如果删失发生在验证数据集的相关时间点之前，那么删失个体的实际结局状态是未知的，便难以直接绘制相关时间点的模型预测校准图。一种常见的方法是设置特定的组别（例如根据模型估计事件概率的十分之一定义10个组），并绘制模型平均估计概率与每个组的观察事件概率（1-Kaplan-Meier）的对比图。然而，由于组的数量和用于定义组的界值都是人为设定的，因此这种方法只能提供主观选择的参与者组的信息，而不能提供关于指定值或预测值范围内的校准或错误校准的粒度信息（尽可能小的数据信息）。要解决该问题，可以通过伪观测值（或伪数值）、灵活的自适应COX回归或使用限制性立方样条图的Cox模型等方法绘制平滑校准曲线，检查特定时间点整个预测值范围内的校准情况（类似于二分类结局的校准图）。BMJ指南在此部分有更为详细的说明。

图3.急性心肌梗塞后30天的死亡率概率预测模型外部验证校准图

上图3为二分类结局预测模型的校准图示例。

当死亡事件发生概率在0至0.15之间时，校准效果良好。
当事件发生概率超过0.2后，校准曲线位于对角线以下，说明模型高估了死亡概率。

如果按照所有模型预测值的10分位数分为10组进行校准检查（图3中的10个数据点）。由于大部分数据点涉及的患者的模型预测值低于0.2，因此10组中有9组的预测值低于0.2。如果只包括分组点，而未绘制个体间的平滑曲线，模型预测值超过0.2的误判范围就会被掩盖。此外，模型在第十组中的估计概率平均值约为0.4，高于该值的信息则完全缺失，而根据所有个体的平滑曲线，错误校正在高于第十组的数据中最为明显。可见校准曲线对于显示整个预测范围内的信息至关重要（包括接近1的值），按组别分类进行校准存在丢失和隐藏信息的可能。

尽管校准良好的模型最理想，但校准失误的模型仍可能具有临床实用性。例如，在图3中，在模型估计的死亡风险非常高（如>0.3）的区域，校准错误最为明显，而实际观察到的死亡风险要低0.05到0.3左右。在这种情况下，患者被模型认为具有高或极高的死亡风险则不太可能改变对该患者的临床决策。相比之下，当预测值在0.05到0.1之间时，临床风险与预测风险更为相关，校准效果较好。因此，尽管在较高风险下存在错误校准，该模型在临床实践中可能仍然有用（见步骤 4）。

校准曲线的置信区间对于揭示校准评估的精确度非常重要。它还可以量化由特定预测值定义的一组个体的实际风险的不确定性。例如，对于某个预测风险为0.8的人群，校准曲线周围该人群的实际风险95%CI可能在0.78到1之间。

3.量化校准性能

BMJ指南建议绘制带有校准曲线的校准图外，还应补充校准效果的统计检验结果，以总结图中观察到的校准性能。指南不建议使用Hosmer-Lemeshow检验或相关检验（如Nam-D'Agostino检验或Gronnesby-Borgan检验）来评估校准，因为这些检验需要对参与者进行任意分组，而分组与样本量会影响计算出的P值，并且不能量化任何错误校准的实际幅度或方向。

相反，校准应通过校准斜率（理想值为1）、校准截距（理想值为0）以及二分类或生存结局的观察值/预期值（O/E）比（理想值为 1）或相反的E/O比来量化。指南中也对这几种测量方法进行了详细解释。这些指标的估计值应与置信区间一起报告，并针对整个数据集，最好也报告关键亚组（如不同种族群体、地区）的结果。若要量化校准曲线的总体误差，可使用“估计校准指数“或”综合校准指数“，即分别测量估计校准曲线与理想校准45度线之间的平方差或绝对差的平均值。

表1中所总结的校准测量结果与校准图3中相符。例如，二分类结局预测模型的校准斜率为0.72（95%CI：0.70-0.75），表明预测过于激进；从图3可见，这是因为模型对高估了“实际概率高于0.2的事件“发生风险。

表1结果还强调了单靠一个校准指标并不能全面反映情况。例如，在示例中，O/E（观察/预期）比值为1.01（1.01至1.02），表明总体一致性良好，但由于高风险个体被模型进一步高估，校准斜率为0.72（0.70 至 0.75）。因此，所有校准指标应一并报告，并在报告校准图的同时附上平滑校准曲线。

4.量化识别性能

区分度（Discrimination）是指模型的预测对两类参与者的区分程度：一类是发生结局的参与者，另一类是不发生结局的参与者。因此，区分度指标只适用于二分类和生存结局的预测模型中。

区分度由一致性统计量（c）来量化：

数值为1表示模型具有完美的判别能力
数值为0.5表示模型的判别能力不优于偶然性

对于二分类结局，它相当于接受者操作特征曲线（AUROC）下的面积。它代表着对于任意一对随机选择的参与者（一个有结局，一个没有结局），模型赋予有结局的参与者以更高风险的概率。评价c统计量的高低需结合具体情况：

在某些存在强预测因子的领域，0.8的c值可能被视为高值；
但在其他预测较为困难的领域，0.6的c值可能被视为高值。

在表1的二分类结局示例中，模型正确识别了80.8%的配对（c统计量为0.81，95%CI：0.80-0.82），判别能力良好。c统计量还取决于病例组合分布。另外，预测模型并不关心灵敏度和特异性等传统的检验准确性指标，因为评价重点在于模型预测的整体性能上，而不是强行用阈值来定义所谓的高性能组和低性能组。如果阈值对临床决策很重要，则应在这些阈值上评估临床效用，例如使用净效益和决策曲线（见步骤 4）。

c统计量也被拓展应用于生存模型，最显著的是Harrell的c指数，但也有许多其他变体可用，包括Efron’s估计值, Uno’s 估计值, Göner and Heller’s估计值以及病例组合调整的估计量。罗伊斯顿（Royston）的D统计量是另一个衡量区分度的指标，原理是将已建立模型中的线性预测因子（假定为正态分布）按中位数进行二分类转化，将两个同等大小的组进行比较所得到的对数危险比。D统计量的数值越大，表明辩别力越高。

Harrell c指数和罗伊斯顿的D统计量测量的是直到某一特定时间点（或随访结束）的所有时间点的区分度。然而，通常外部验证研究的目的是检验模型在特定时间点的预测性能，因此与时间相关的判别指标更有参考价值，如对相关时间点（t）的ROC曲线下与时间相关的面积进行逆概率加权。

步骤四：量化临床效用

如果模型评价目标是预测以指导医学决策，还应评估预测模型对参与者和医疗保健结果的总体收益，也称为其临床效用（clinical utility）。在对模型进行外部验证时，模型的临床效用可通过净效益进行量化，净效益是权衡效益（如改善患者预后）与危害（如患者预后恶化、增加成本）的指标。为计算净效益，需引入一个阈值概率的概念，即启动特定治疗或临床行动所需的风险。比如模型估计患者的事件概率高于某个阈值（例如，>0.1），那么患者及其医护人员就可以决定采取某种临床决策，如使用更为激进的治疗方法、监测策略或改变生活方式。在进行临床效用分析之前，应与临床专家和患者讨论来确定阈值。实际情况下，可能会有一系列感兴趣的阈值，因为单一阈值不太可能为所有临床环境和个人所接受。然后，可以使用决策曲线来显示模型在所选阈值范围内的净效益，并与其他决策策略（如其他模型，或全部治疗和不治疗等选项）进行比较。BMJ指南中提供了更多的详细的解释。

图4.急性心肌梗死后30天死亡风险预测模型的临床效用决策曲线

图四的案例分析了急性心肌梗死后30天死亡风险预测模型（二分类结局模型）的临床效用，X轴为驱动治疗心梗治疗所需的风险（0~1），Y轴为预测模型在一系列阈值概率下的净收益。决策曲线结果显示模型预测在低于0.44的所有阈值（临床阈值很可能落在这一临床环境中）下都具有正净效益，在所有阈值下都比全部治疗策略具有更大的净效益。

步骤五：清晰透明的报告

研究人员可以参考”个体预后或诊断多变量模型的透明报告声明（TRIPOD）”撰写包含多变量预测模型验证内容的研究。例如，该指南建议具体阐述为评估模型性能而计算的所有指标，并至少报告校准（图形和定量结果）和区分度，以及相应的95%置信区间。随着用于开发和验证预测模型的新样本量计算标准的出现，BMJ还建议报告 Cox-Snell 或 Nagelkerke R2，以及线性预测因子的分布。这些额外的报告建议不仅提供了有关模型性能的信息，还为研究人员提供了估计样本大小所需的关键信息，以便进一步进行外部验证、模型更新或开发新模型。

缺失数据与竞争事件

外部验证数据集中的某些预测变量或结果可能缺失。有多种方法可用于处理缺失数据，包括完整个例分析、单一插补（如平均插补或回归插补）和多重插补。有时，模型开发者会指定在模型部署过程中如何处理缺失的预测值；在这种情况下，外部验证应采用推荐的插补策略。然而，大多数现有模型都没有规定或甚至没有考虑如何处理预测因子的缺失值，可能需要在外部验证中考虑单一或多重插补。

有时，竞争事件的发生会阻碍主要结局的观测，如在第二次髋关节置换术前发生死亡事件。在这种情况下，如果要在真实世界的背景下评估模型的预测结果（即竞争事件会降低主要事件发生的概率），那么预测性能估计值就必须在统计分析中考虑竞争事件。BMJ期刊曾报道过另一篇关于在竞争风险环境中验证模型的相关论文[2]。

小结

临床预测模型研究领域应当高度重视外部验证。一个临床预测模型永远不会被完全验证，因为它的预测性能可能会在不同的目标环境、人群和亚群中发生变化，并且可能会随着时间的推移而劣化。因此，外部验证研究在模型验证中既是必要又是应持续的内容。在本系列的下一篇文章中，我们将介绍如何计算外部验证研究所需的样本量。

原文PDF获取方式：本公众号回复关键词“原文”

详情请点击下方：