临床研究缺失数据处理：详解NEJM顶级论文（IF=158）的统计学方法

最新推荐文章于 2025-06-06 18:37:39 发布

妙趣横生统计学

最新推荐文章于 2025-06-06 18:37:39 发布

阅读量2.5k

点赞数 18

本文链接：https://blog.csdn.net/weixin_44693403/article/details/136467169

版权

编者

2023年2月，我们搞了一场“立春”统计沙龙”，聚焦于临床研究缺失数据的统计学应对。这次，我们把所有的讲课和文献，都做成文字版教程，发给大家进行交流与学习！

主要内容分为10篇，分为文献解读、R语言方法、论文复现、好文翻译四个内容。各位有兴趣可以跟着来交流。

对应的视频如下：

视频回放：立春统计交流会“临床研究缺失数据如何处理”

今天第一篇：

解读NEJM论文的一篇临床试验缺失数据处理方法。

”数据缺失是困扰临床研究的心头大患，急得研究者抓耳挠腮。数据缺失如此多娇，引无数计算机学者、数学家、医学家竞折腰。今天我们就来看看一篇发表在顶级大刊NEJM上的结局多重插补文章。

2023年12月28日，一篇题为"Restrictive or liberal transfusion strategy in myocardial infarction and anemia"的临床RCT研究论文发表于《The New England journal of medicine》（一区top，IF=158.5），作者为美国罗格斯大学Jeffrey L Carson团队。这项研究纳入3504名有心肌梗死伴贫血的患者，将他们分入限制性和开放性输血策略组，通过对数二项回归模型和多重插补的方法，探究不同输血策略与心肌梗死复发或死亡的关系。结果表明，对于心肌梗死和贫血患者，宽松的输血策略并不能显著降低30天内复发性心肌梗死或死亡的风险。然而，限制性输血策略的潜在危害不能被排除。

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT，数据等资料

摘要与主要结果

一、研究摘要

研究目的：对于心肌梗死和贫血患者，宽松的输血策略并不能显著降低30天内复发性心肌梗死或死亡的风险。然而，限制性输血策略的潜在危害不能被排除。

方法：这个3期干预性实验中，研究者随机将心肌梗死和血红蛋白水平低于10 g/dl的患者分配到两组——限制性输血策略(输血血红蛋白截止值，7或8g/dl)或自由输血策略(血红蛋白截止值，< 10g/dl)。主要结局是在30天时出现心肌梗死或死亡。

结果：主要分析共纳入3504例患者。输注的红细胞单位的平均(± SD)数量在限制策略组为0.7 ± 1.6，在自由策略组为2.5 ± 2.3。随机分组后第1至3天，限制策略组的平均血红蛋白水平比自由策略组低1.3至1.6 g/dl。限制性策略组1749例患者中有295例(16.9%)发生主要终点事件，自由策略组1755例患者中有255例(14.5%)发生主要终点事件(不完全随访的多重归因风险比为1.15; 95% 置信区间[ CI ] ，0.99至1.34; P = 0.07)。9.9% 的限制性策略患者和8.3% 的自由策略患者发生死亡(风险比为1.19.95% CI，0.96-1.47) ，8.5% 和7.2% 的患者发生心肌梗死(风险比为1.19.95% CI，0.94-1.49)。

结论：对于心肌梗死和贫血患者，宽松的输血策略并不能显著降低30天内复发性心肌梗死或死亡的风险。然而，限制性输血策略的潜在危害不能被排除。

二、研究结果

1. 基线特征

从2017年4月到2023年4月，共有3506名患者入选，在2名患者不同意使用他们的数据后，3504名患者被纳入分析。患者的平均年龄为72.1岁，其中45.5% 为女性。这些病人经常并存疾病，大约三分之一有心肌梗死、冠状动脉再成形术或心力衰竭的病史，近一半有肾功能衰竭。在随机分组前接受冠状动脉造影和左心室功能评估的患者中，存在多支血管病变和左心室收缩功能降低是常见的。

大部分(55.8%)患者为2型心肌梗死，其次为1型(41.7%)。随机前平均血红蛋白水平为8.6 g/dl，肌酐中位数为1.4 mg/dl (124μmol/L)。对3447例(98.3%)接受随机分组的患者进行了30天的随访。

2.干预实施情况

限制性策略组的平均血红蛋白水平在第1天比自由策略组低1.3 g/dl (95% 置信区间[ CI ] ，1.2至1.4) ，在第3天低1.6 g/dl (95% CI，1.5至1.7)。自由策略组输血的红细胞总数是限制策略组输血的3.5倍(4325个单位比1237个单位)。自由策略组输注的红细胞单位的平均(± SD)数为2.5 ± 2.3，而限制策略组为0.7 ± 1.6。两组患者从随机分组到出院、停药或死亡的住院时间中位数为5天(四分差2-10天)。

在限制性策略组中，46例患者(2.6%)中止了治疗，其中24例是由于临床原因，包括手术和出血。
自由策略组中止方案发生在241名患者(13.7%) ; 其中89名患者提供了临床原因，包括不良反应，液体超负荷，透析和输血反应。
停药的其他原因包括患者偏好(68例)、提供者偏好(53例)和其他原因(31例) ，包括血液供应短缺和人员配备问题。

3. 研究主要结局与次要结局结果

限制性策略组1749名患者中有295名(16.9%)发生了30天内任何原因导致的心肌梗死或死亡(主要结果) ，自由策略组1755名患者中有255名(14.5%)发生了死亡。粗RR(限制性与自由性)为1.16(95% CI，1.00-1.35)。根据对57例患者(限制性策略20例，自由策略37例)调整部位和不完全随访后的对数二项模型，主要结局的估计RR为1.15(95% CI，0.99-1.34; P = 0.07)。在调整基线预后因素(RR =1.16; 95% CI 1.00-1.36)后，模型对主要结果的估计与前两个计算结果一致。

4. 主要结局（心肌梗死或死亡）的K-M曲线

5. 亚组分析

与自由输血策略相比，限制性输血对主要结局的影响在所有预先指定的亚组中是一致的。在1型心肌梗死患者中，限制性策略比自由策略导致更多的主要结果事件(风险比1.32; 95% CI，1.04-1.67) ，在2型心肌梗死患者中没有明显效果(风险比1.05; 95% CI，0.85-1.29)。

设计与统计学方法

一、研究设计

P：来自美国144个试验点的ST 段抬高或非 ST 段抬高心肌梗死伴有贫血(随机分组前24小时内血红蛋白水平 < 10 g/dl)的成年人(≥18岁)，共3506名患者。

E/C：自由输血策略(血红蛋白截止值，< 10 g/dl)/ 限制性输血策略(输血血红蛋白截止值，7或8 g/dl)。

O：在30天时出现心肌梗死或死亡。

S：开放标签的 RCT。

二、统计方法

1.采用ITT进行分析，使用双侧检验，α=0.05，检验效能为80%，假设心肌梗死或死亡的总发生率为 16.4%。

2.使用对数二项式回归分析主要结局，其中固定效应为设定的输血策略，随机效应为不同临床试验点。

3.使用链式方程多重插补（MICE）进行多重插补，以插补 30 天前退出或失访且未发生主要结局事件的患者的缺失结局数据。

4.对于所有试验结局，我们分析了粗略的30天风险，没有进行多重插补，计算了RR和95%CI。

5.对主要结局进行了二次分析，使用了Kaplan–Meier方法评估主要结局事件的累积风险，并在患者停药时和30天时使用log-rank统计比较两条累积风险曲线。

插补与多重插补

一、关于数据插补的基础知识

对于缺失值，我们有三种常见的处理办法：①不处理（用算法包容或者转化为新分类）；②删除；③插补（imputation）。但是每一份临床数据都是宝贵的资源，我们通常想要最大化利用，那么合理的插补就成为了一种理想方法。

常见的插补可以分为以下几种：

1.均值/中位数/众数插补

对于连续定量数据，可以用均值或中位数插补。这是一种经常使用又简单可行的方法。
对于离散型定量数据，可以使用众数（mode）插补。众数是指频数最多的一组数据的组中值。

2.固定值填充

以统一的参考值/标准值/特殊值替换。

3.临近值插补

借助与缺失样本最临近（相似度）最高的k个样本的属性值，加权平均后插补。

当k=1时,最近临插补法又称为热卡填充法。

4.回归插补

建立回归模型来拟合缺失值。

5.函数插值

对于一维数据，可以使用前后两个样本点，进行线性插值；也可以使用附近多个样本点，进行拉格朗日插值法和牛顿插值法。函数插值法和回归插补法的区别在于，函数插值是完美拟合的，而回归插补是拟合以达到最小方差。

6．多重插补（Multiple Imputation,MI）

多重插补是用模型估计和重复模拟来生成一组完整的数据集。其基本原理是，模拟生成一个缺失数据的随机分布，而后从中随机抽取数据作为缺失值的填补。

例如，对于缺失值N，如果我们用y=ax+b进行插补，就没有考虑抽样的偏离。但是增加残差e后，用y=ax+b+e进行插补，仍然假定a,b是真实值，但a,b只是我们的估计值。所以，我们从贝叶斯后验分布中随机抽取a,b。

通过马尔科夫链蒙特卡洛法（Markov Chain Monte Carlo,MCMC）法，我们可以通过产生平稳的分布链和模拟抽样，来达成这种多重插补的目的。

二、本文中的多重插补

1.本文在附录和protocol中详细阐述了其多重插补方法。主要运用的原理是Markov Chain Monte Carlo (MCMC)多重插补法。用于插补随访中退出或缺失患者主要结局数据，即死亡和心肌梗死缺失的 30 天结果值（是/否）。使用的软件是SAS 9.4 PROC MI 和 PROC MIANALYZE。

2.具体方法是应用已完整的数据，建立一个对数二项式模型来预估结局与关键变量的关系。该该模型将用于预测缺失 30 天结果的参与者的结果概率。根据这些概率，将创建十个插补数据集。将对每个插补数据集估计具有站点随机效应的对数二项式模型，并使用稳健的方法将结果收敛以获得具有适当调整标准误差的治疗效果的单一估计值。之后进行了许多敏感性分析，结果与各种方法相似。