临床研究缺失数据处理: 详解NEJM顶级论文(IF=158)的统计学方法

编者

2023年2月,我们搞了一场“立春”统计沙龙”,聚焦于临床研究缺失数据的统计学应对。这次,我们把所有的讲课和文献,都做成文字版教程,发给大家进行交流与学习!

主要内容分为10篇,分为文献解读、R语言方法、论文复现、好文翻译四个内容。各位有兴趣可以跟着来交流。

对应的视频如下:

视频回放:立春统计交流会“临床研究缺失数据如何处理”

今天第一篇:

解读NEJM论文的一篇临床试验缺失数据处理方法。

”数据缺失是困扰临床研究的心头大患,急得研究者抓耳挠腮。数据缺失如此多娇,引无数计算机学者、数学家、医学家竞折腰。今天我们就来看看一篇发表在顶级大刊NEJM上的结局多重插补文章。

2023年12月28日,一篇题为"Restrictive or liberal transfusion strategy in myocardial infarction and anemia"的临床RCT研究论文发表于《The New England journal of medicine》(一区top,IF=158.5),作者为美国罗格斯大学Jeffrey L Carson团队。这项研究纳入3504名有心肌梗死伴贫血的患者,将他们分入限制性和开放性输血策略组,通过对数二项回归模型和多重插补的方法,探究不同输血策略与心肌梗死复发或死亡的关系。结果表明,对于心肌梗死和贫血患者,宽松的输血策略并不能显著降低30天内复发性心肌梗死或死亡的风险。然而,限制性输血策略的潜在危害不能被排除。

b9039ba5724fbce6b2e1626c5285c138.png

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT,数据等资料

摘要与主要结果

一、研究摘要

研究目的:对于心肌梗死和贫血患者,宽松的输血策略并不能显著降低30天内复发性心肌梗死或死亡的风险。然而,限制性输血策略的潜在危害不能被排除。

方法:这个3期干预性实验中,研究者随机将心肌梗死和血红蛋白水平低于10 g/dl的患者分配到两组——限制性输血策略(输血血红蛋白截止值,7或8g/dl)或自由输血策略(血红蛋白截止值,< 10g/dl)。主要结局是在30天时出现心肌梗死或死亡。

果:主要分析共纳入3504例患者。输注的红细胞单位的平均(± SD)数量在限制策略组为0.7 ± 1.6,在自由策略组为2.5 ± 2.3。随机分组后第1至3天,限制策略组的平均血红蛋白水平比自由策略组低1.3至1.6 g/dl。限制性策略组1749例患者中有295例(16.9%)发生主要终点事件,自由策略组1755例患者中有255例(14.5%)发生主要终点事件(不完全随访的多重归因风险比为1.15; 95% 置信区间[ CI ] ,0.99至1.34; P = 0.07)。9.9% 的限制性策略患者和8.3% 的自由策略患者发生死亡(风险比为1.19.95% CI,0.96-1.47) ,8.5% 和7.2% 的患者发生心肌梗死(风险比为1.19.95% CI,0.94-1.49)。

结论:对于心肌梗死和贫血患者,宽松的输血策略并不能显著降低30天内复发性心肌梗死或死亡的风险。然而,限制性输血策略的潜在危害不能被排除。

二、研究结果

1. 基线特征

从2017年4月到2023年4月,共有3506名患者入选,在2名患者不同意使用他们的数据后,3504名患者被纳入分析。患者的平均年龄为72.1岁,其中45.5% 为女性。这些病人经常并存疾病,大约三分之一有心肌梗死、冠状动脉再成形术或心力衰竭的病史,近一半有肾功能衰竭。在随机分组前接受冠状动脉造影和左心室功能评估的患者中,存在多支血管病变和左心室收缩功能降低是常见的。

大部分(55.8%)患者为2型心肌梗死,其次为1型(41.7%)。随机前平均血红蛋白水平为8.6 g/dl,肌酐中位数为1.4 mg/dl (124μmol/L)。对3447例(98.3%)接受随机分组的患者进行了30天的随访。

642ace9b4788980717949575cc689c2b.png

b3e4ca6f5ed73fc4ba58fb8cf0a1c84c.png

2.干预实施情况

限制性策略组的平均血红蛋白水平在第1天比自由策略组低1.3 g/dl (95% 置信区间[ CI ] ,1.2至1.4) ,在第3天低1.6 g/dl (95% CI,1.5至1.7)。自由策略组输血的红细胞总数是限制策略组输血的3.5倍(4325个单位比1237个单位)。自由策略组输注的红细胞单位的平均(± SD)数为2.5 ± 2.3,而限制策略组为0.7 ± 1.6。两组患者从随机分组到出院、停药或死亡的住院时间中位数为5天(四分差2-10天)。

  • 限制性策略组中,46例患者(2.6%)中止了治疗,其中24例是由于临床原因,包括手术和出血。

  • 自由策略组中止方案发生在241名患者(13.7%) ; 其中89名患者提供了临床原因,包括不良反应,液体超负荷,透析和输血反应。

  • 停药的其他原因包括患者偏好(68例)、提供者偏好(53例)和其他原因(31例) ,包括血液供应短缺和人员配备问题。

167c31ef380c2f5935ddac99a12691d6.png

3. 研究主要结局与次要结局结果

限制性策略组1749名患者中有295名(16.9%)发生了30天内任何原因导致的心肌梗死或死亡(主要结果) ,自由策略组1755名患者中有255名(14.5%)发生了死亡。粗RR(限制性与自由性)为1.16(95% CI,1.00-1.35)。根据对57例患者(限制性策略20例,自由策略37例)调整部位和不完全随访后的对数二项模型,主要结局的估计RR为1.15(95% CI,0.99-1.34; P = 0.07)。在调整基线预后因素(RR =1.16; 95% CI 1.00-1.36)后,模型对主要结果的估计与前两个计算结果一致。

70e4667330afcc3c8a4d4908a581c2e8.png

4. 主要结局(心肌梗死或死亡)的K-M曲线

ab9dec4586261486afbbdbe01e14e8fd.png

83cdbe032c2fd518b6e0420acac4a557.png

5. 亚组分析

与自由输血策略相比,限制性输血对主要结局的影响在所有预先指定的亚组中是一致的。在1型心肌梗死患者中,限制性策略比自由策略导致更多的主要结果事件(风险比1.32; 95% CI,1.04-1.67) ,在2型心肌梗死患者中没有明显效果(风险比1.05; 95% CI,0.85-1.29)。

e50f7955460fa38da4d09a93eaf16200.png

设计与统计学方法

一、研究设计

P:来自美国144个试验点的ST 段抬高或非 ST 段抬高心肌梗死伴有贫血(随机分组前24小时内血红蛋白水平 < 10 g/dl)的成年人(≥18岁),共3506名患者。

E/C:自由输血策略(血红蛋白截止值,< 10 g/dl)/ 限制性输血策略(输血血红蛋白截止值,7或8 g/dl)。

O:在30天时出现心肌梗死或死亡。

S:开放标签的 RCT。

二、统计方法

1.采用ITT进行分析,使用双侧检验,α=0.05,检验效能为80%,假设心肌梗死或死亡的总发生率为 16.4%。

d0b00c8e1dc4fddd813d39118565c8c1.png

2.使用对数二项式回归分析主要结局,其中固定效应为设定的输血策略,随机效应为不同临床试验点。

ea46f0c70c593c350a20c56e02d83464.png

61e9e784326672bd3a134d42a20a5fe5.png

3.使用链式方程多重插补(MICE)进行多重插补,以插补 30 天前退出或失访且未发生主要结局事件的患者的缺失结局数据

84ab059788318c29963ae6aed01cdafc.png

4.对于所有试验结局,我们分析了粗略的30天风险,没有进行多重插补,计算了RR和95%CI。

224567b734d65ff1cfa02f22148ec57e.png

5.对主要结局进行了二次分析,使用了Kaplan–Meier方法评估主要结局事件的累积风险,并在患者停药时和30天时使用log-rank统计比较两条累积风险曲线。

57da346151d7bf68a7afd75217fcdf13.png

插补与多重插补

一、关于数据插补的基础知识

对于缺失值,我们有三种常见的处理办法:①不处理(用算法包容或者转化为新分类);②删除;③插补(imputation)。但是每一份临床数据都是宝贵的资源,我们通常想要最大化利用,那么合理的插补就成为了一种理想方法。

常见的插补可以分为以下几种:

1.均值/中位数/众数插补

  • 对于连续定量数据,可以用均值或中位数插补。这是一种经常使用又简单可行的方法。

  • 对于离散型定量数据,可以使用众数(mode)插补。众数是指频数最多的一组数据的组中值。

2.固定值填充

以统一的参考值/标准值/特殊值替换。

3.临近值插补

借助与缺失样本最临近(相似度)最高的k个样本的属性值,加权平均后插补。

当k=1时,最近临插补法又称为热卡填充法。

4.回归插补

建立回归模型来拟合缺失值。

5.函数插值

对于一维数据,可以使用前后两个样本点,进行线性插值;也可以使用附近多个样本点,进行拉格朗日插值法和牛顿插值法。函数插值法和回归插补法的区别在于,函数插值是完美拟合的,而回归插补是拟合以达到最小方差。

6.多重插补(Multiple Imputation,MI)

多重插补是用模型估计和重复模拟来生成一组完整的数据集。其基本原理是,模拟生成一个缺失数据的随机分布,而后从中随机抽取数据作为缺失值的填补。

例如,对于缺失值N,如果我们用y=ax+b进行插补,就没有考虑抽样的偏离。但是增加残差e后,用y=ax+b+e进行插补,仍然假定a,b是真实值,但a,b只是我们的估计值。所以,我们从贝叶斯后验分布中随机抽取a,b。

通过马尔科夫链蒙特卡洛法(Markov Chain Monte Carlo,MCMC)法,我们可以通过产生平稳的分布链和模拟抽样,来达成这种多重插补的目的。

二、本文中的多重插补

1.本文在附录和protocol中详细阐述了其多重插补方法。主要运用的原理是Markov Chain Monte Carlo (MCMC)多重插补法。用于插补随访中退出或缺失患者主要结局数据,即死亡和心肌梗死缺失的 30 天结果值(是/否)。使用的软件是SAS 9.4 PROC MI 和 PROC MIANALYZE。

13b443c2d42c6260fc3e96bb26d863ec.png

2.具体方法是应用已完整的数据,建立一个对数二项式模型来预估结局与关键变量的关系。该该模型将用于预测缺失 30 天结果的参与者的结果概率。根据这些概率,将创建十个插补数据集将对每个插补数据集估计具有站点随机效应的对数二项式模型,并使用稳健的方法将结果收敛以获得具有适当调整标准误差的治疗效果的单一估计值。之后进行了许多敏感性分析,结果与各种方法相似。

5ad5988a13eee1eb45b09df64634704e.png

3.纳入多重插补模型中的变量:

00c1c554e74711ecf2549b7edeedc0ec.png

后记

只要做过临床研究、数据收集、统计分析,几乎肯定会遇到数据缺失的问题,数据缺失就像是真实世界对人类研究的盖章一样,没有缺失反而让人觉得不真实。

数据缺失了怎么办?直接删掉吗?不妨试一下多重插补,救一下急。

多重插补(MI,Multiple imputation)是用于填补复杂数据缺失值的一种方法,近年来出现在不少高质量SCI临床研究中。

本文就是通过多重插补对缺失数据进行填补,得出较符合实际情况的数据,得出更真实的结论。这也为各位读者在遇到相似的情况时,提供了一种思路。更详细的方法就需要各位阅读其他文献,毕竟学海无涯,常学常新。

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT,数据等资料


本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看:

发文后退款:2024-2025年科研统计课程介绍

二、数据分析服务

浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情:

课题、论文、毕业数据分析 

 临床试验设计与分析 公共数据库挖掘与统计

  • 18
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值