缺失数据10 | 临床试验中缺失数据的预防与处理-CSDN博客

本文链接：https://blog.csdn.net/weixin_44693403/article/details/137165334

本文概述了美国国家研究委员会关于临床试验中数据缺失问题的报告，强调了设计和实施过程中的关键因素，如限制缺失数据、合理假设的分析方法以及敏感性分析的重要性。文章介绍了如何通过改进试验设计和实施策略来减少数据丢失，并提到了几种处理缺失数据的建议方法和原则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

郑老师的统计课程，欢迎报名

发表文章后退款！欢迎参加学习2024年郑老师科研统计课程

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT，数据等资料

一、背景

缺失的数据严重损害了临床试验的推论，但该主题在临床试验界很少受到关注[1]。现有的监管指南[2-4] 在临床试验的设计、实施和分析方面，几乎没有关于如何解决数据缺失问题的具体建议。美国国家研究委员会 (NRC)最近关于这一主题的一份报告[5]试图解决这一差距，本文总结了该报告的一些主要发现和建议。本文的作者曾在编写该报告的小组中任职。

缺失的数据严重损害了临床试验的推论[1]。例如，《华尔街日报》的社论指出，数据缺失如何限制了从减肥试验中得出明确结论的能力[6]或者可能导致对药物安全性的错误推断[7]。缺失数据的高发生率会影响许多疾病治疗试验的结论 [8-13]。由于现有的监管指导[2-4]缺乏特异性，2008 年，美国食品药品监督管理局（FDA）要求 NRC 召集一个专家小组，准备“一份报告，其中包括对 FDA 制定临床试验指南的建议，包括适当的研究设计和随访方法，以减少缺失数据，以及适当的统计方法，以解决结果分析中的数据缺失。”这篇文章总结了该小组报告的一些主要发现和建议[5]。详情见其他地方[14]。

该报告主要侧重于3期验证性临床试验，以评估药物、生物制品和一些医疗器械的安全性和有效性，这对其科学严谨性的要求很高。在这类研究中，随机研究组分配的使用占主导地位，因为这种设计特征确保了研究组的可比性，并允许评估因果关系。然而，许多建议一般适用于早期随机试验和流行病学研究。

缺失数据定义为不可用的值，如果观察到这些值，则对分析有意义。例如，生活质量指标通常对死亡患者没有意义，因此在该定义下不被视为缺失数据。尽管也开发了分析方法来处理缺失的协变量和辅助数据，但我们在这里重点关注缺失的结果数据。

二、重要发现

大量数据缺失是一个严重的问题，它破坏了临床试验因果结论的科学可信度。假设分析方法可以弥补这种缺失数据是不合理的，因此试验设计中限制缺失数据的可能性应该是一个重要的目标。除了试验设计的特定方面，临床试验实施的许多组成部分可以限制缺失数据的程度。最后，在数据缺失的研究中，应使用基于合理科学假设的分析方法。例如，这种考虑通常排除了简单的修正，例如通过最后一次观测值进行插补[10]。尽管有更好的分析替代方法，但它们都需要无法验证的假设。因此，应进行敏感性分析，以评估研究结果对缺失数据的合理替代假设的稳健性。

我们现在考虑一些具体的缺失数据问题，这些问题旨在具有代表性和信息性，而不是全面性。

三、停药后随访

临床试验中缺失数据的一个主要来源是由于不良事件、缺乏耐受性、缺乏疗效或简单不便而停止分配治疗的受试者。太多的研究者错误地将治疗中止等同于研究脱落；也就是说，没有记录中止治疗的受试者的结局。然而，入组者承诺参与研究，而不仅仅是接受分配的治疗。当研究治疗停止时，应努力获得受试者同意收集治疗和结局数据。

当这些努力成功时，在治疗停止后收集这些数据可以保留分析所有接受随机化的参与者的终点的能力，从而可以进行基于随机化的意向治疗推断。它还允许探索指定的治疗是否影响后续治疗的使用和疗效，并提供监测治疗停止后可能发生或持续的副作用的能力[7]。专家组的共识是，在许多研究中，在参与者停止治疗后收集结果的好处超过了成本[5]。

四、试验设计

由于在面对大量缺失数据时没有万无一失的方法来分析数据，我们强调设计和试验进行的作用，以限制缺失数据对监管决策的影响。良好的临床试验设计应该明确定义目标人群，以及疗效和安全性结果，缺失数据的可能影响应该考虑到合理的替代选择。该报告指出，“研究者、申办者和监管机构应设计符合以下目标的临床试验，即在收集结果数据之前，最大限度地增加维持方案规定干预的受试者数量。”

临床试验的设计元素可以通过减少主要终点数据缺失的受试者数量来帮助防止数据缺失。报告中讨论了各种设计思想，表1中列出了其中的八种。它们的相关性因环境而异，可能有需要考虑的局限性或缺点。

一个重要而相对被忽视的设计问题是如何在统计推断（如假设检验或置信区间）中考虑缺失数据的功效损失。最常见的方法是在没有缺失数据的情况下从类似试验中估计并夸大所需的样本量，以在预期退出率下达到相同的样本量。这种方法通常是有缺陷的，因为夸大样本量会导致缺失数据引起的研究精度降低，但不会导致缺失数据与观察数据存在实质性差异时产生的偏倚。在缺失数据的偏倚量类似于或大于治疗效应的预期大小的极端情况下，无论样本量如何，都不太可能检测到真正的治疗效应，并且研究是无信息的。在进行把握度计算时，应考虑意向治疗分析的样本量计算，该分析使用假设的群体治疗效应，该效应由于一些研究参与者无法坚持治疗而减弱。或者，可以为统计程序开发功效分析，明确说明缺失数据及其相关的不确定性，如下所述。

表1 在临床试验设计中限制缺失数据的8个想法

目标人群为当前治疗不能充分服务的人群，因此有继续参与研究的动机。
包括一个导入期，在此期间，所有患者均被分配至活性治疗组，之后仅耐受并坚持治疗的患者接受随机分组。
允许灵活的治疗方案，以适应疗效和副作用的个体差异，以减少由于缺乏疗效或耐受性而导致的脱落率。
考虑添加设计，其中研究治疗添加到现有治疗中，通常具有在先前研究中已知有效的不同作用机制。
缩短主要结局的随访时间。
允许使用研究方案中指定为治疗方案组成部分的急救药物。
对于长期疗效评估（与脱落率增加相关），考虑随机退出设计，其中仅已接受研究治疗且未脱落的受试者接受随机化，以继续接受治疗或改用安慰剂。
避免可能导致大量缺失数据的结局指标。在某些情况下，将直至使用补救治疗的时间视为结局指标或将研究治疗中止视为治疗失败的一种形式可能是适当的。

五、试验计划和行为

缺失数据的发生率在临床试验中差异很大。其中一些变化是特定于背景的，但在许多情况下，在试验计划和实施中更仔细地注意限制缺失数据可以大大减少问题。表2列出了八个实用的想法。小组报告[5,14]更详细地讨论了这些想法和其他想法。

表2 在临床试验中限制缺失数据的8个想法

选择在招募和随访受试者以及在既往试验中收集完整数据方面具有良好记录的研究者。
为缺失数据设定可接受的目标率，并监测试验在这些目标方面的进展。
为研究者和参与者提供货币和非货币激励，以确保数据收集的完整性，只要他们符合严格的伦理要求[15，16]。
限制参与者数据收集的负担和不便，并使研究体验尽可能积极。
在试验后、治疗批准前提供持续有效的治疗。
培训研究者和研究工作人员，无论受试者是否继续接受分配的治疗，让受试者继续参加试验直到结束都很重要。将此信息传达给研究参与者。
从参与者那里收集关于他们退出的可能性的信息，并使用这些信息来尝试降低退出的发生率。
及时更新参与者的联系信息。

六、分析方法

1.四种调整方法

没有通用的方法来处理临床试验中的缺失数据，因为每个试验都有自己的设计和测量特征。建模和推理的方法范围非常广泛，没有一种方法或一类方法适用于所有情况。该小组区分了四种不同类型的缺失数据调整方法：完整病例分析、简单插补方法、估计方程方法和基于统计模型的方法。

在完整病例分析中，数据缺失的参与者被简单地排除在分析之外。
在简单插补方法中，通过末次观测值结转和基线观测值结转等方法为每个缺失值填充单个值。
在估计方程方法中，完整的情况是由观察到的估计概率的倒数加权的。例如，可以使用基线数据对观察到的结果的概率进行建模，然后可以通过其被观察到的估计概率的倒数来对完整的情况进行加权。更一般地说，基于模型的估计值会使用模型中的加权残差进行增强。
作为统计模型的一个例子，可以假设连续的重复测量具有特定形式的正态分布的均值和协方差矩阵。基于诸如此类的统计模型的方法包括最大似然法，其中估计和标准误差基于给定观测数据的似然函数；贝叶斯方法，其中推断基于包括测量的假设先验分布的统计模型；多重插补，其中根据基于模型的预测分布创建缺失数据的多组合理值，估计值和标准误差是通过使用多重插补合并规则获得的[17]。Hogan等人[18]对这些方法进行了相对非技术性的描述，并提供了示例。

2.缺失数据的三种情况

这些方法的属性取决于导致缺失数据的机制。一个有用的分类法[5,19]区分假设三种情况之一的方法。

在第一种情况下，数据完全随机缺失，这意味着缺失数据与研究变量无关。特别是，完整病例代表了所有随机化的原始病例。
在第二种情况下，数据是随机缺失的，这意味着记录的特征可以解释观察和缺失病例的缺失变量分布差异。
在第三种情况下，数据不是随机缺失的，这意味着记录的特征不能解释观察病例和缺失病例的缺失变量分布差异。

例如，在一个假想的临床试验中，一些参与者的病情有所改善或恶化，一些参与者出现了毒性反应，在最终结果被记录下来之前就退出了。

数据完全随机缺失的假设假定，预计退出者的结果与未退出的参与者的结果相似，因此可以忽略退出者的数据而不会产生偏见。
数据随机缺失的不太严格的假设意味着，退出受试者的结局预计与未退出受试者的结局相似，具有相似的基线特征和相似的中间指标，因此可以根据未退出的类似受试者的结局对缺失结局进行建模。
只有假设数据不是随机缺失的，才允许没有观察到的事件（例如，自上次访视以来发生的严重毒性或疾病进展）可能影响了退出的决定，因此结局可能与未退出的类似受试者不同。基于数据不是随机缺失的假设的模型必须对这种可能性的影响做出进一步的假设。

这些关于缺失数据机制的假设对不同方法的适当性有影响。我们不建议对缺失数据使用完整病例分析方法，因为它需要不切实际的假设，即数据完全随机缺失。该方法没有利用不完全情况下的部分信息，如果处理得当，可以改善估计。

最后一次观测值结转和基线观测值结转等简单的插补方法经常使用，部分原因是它们简单易懂，但它们被过度使用。我们不推荐它们，因为它们的有效性通常取决于不现实的假设。例如，末次观察值结转法假设参与者退出后的结果不会改变，当这一假设不被证实时，会导致偏倚的治疗效应[10]。这些方法与许多其他方法一样，为缺失数据估算单个值，不会传播估算不确定性，因此会产生不适当的低标准误差和P值估计值。因此，我们建议不应将单插补方法（如末次观察值结转和基线观察值结转）用作缺失数据处理的主要方法，“除非此类方法的基础假设具有科学合理性”[5]。

3.优选方法和敏感性分析

总的来说，该小组倾向于估计方程方法和基于数据统计模型的方法。特别是，加权估计方程和多重输入模型具有优势，因为它们可以用于将有关缺失数据的辅助信息纳入最终分析，并给出包含缺失数据不确定性的标准误差和 P 值。使用这种方法进行的分析通常假设缺失数据是随机缺失的，这种假设通常对主要分析有意义。

然而，观察到的数据永远无法验证这一假设是否正确。因此，为了评估稳健性，建议进行敏感性分析。我们提倡临床医生易于解释的敏感性分析。在报告中，我们包括了基于模式混合和选择模型的此类分析的示例。一种比较两种治疗方法的模式混合方法假设退出的参与者的平均结果与未退出的参与者的平均结果偏离一个偏移量-我们将治疗1称为d（1），治疗2称为d（2）-然后探讨两个研究组中各种偏移量选择对结果的影响。如果在临床上合理的偏移范围内定性维持治疗效果，则认为结果具有稳健性。扩展将偏移应用于针对可用协变量调整的均值，并修改偏移以适合分类结果。

4.推理的六个原则

以下从不完整数据中得出推论的六个原则适用于各种各样的环境。

首先，如果可能的话，确定缺失的值是否对分析有意义，因此是否符合缺失数据的定义。

其次，根据预期收集的数据，制定适当且定义明确的治疗效果的因果主要指标。重要的是要区分所估计的内容和估计方法，因为估计方法可能因假设而异。

第三，尽可能记录数据缺失的原因。例如，患者是为了得到更好的工作而搬家，还是因为严重的副作用而退出试验？了解缺失数据的原因有助于对缺失的观测值做出合理的假设。一个相关的想法是寻找和收集可能预测结果和辍学的辅助变量，因为多重插补和加权估计方程等分析方法可以利用这些数据来减少缺失数据的偏倚，提高估计的精度。

第四，确定关于缺失数据机制的一组主要假设。在某些情况下，主要假设可能是数据随机缺失。关于缺失数据机制的假设（与计算算法的细节相反）必须是透明的，并且临床医生可以访问。

第五，在主要缺失数据假设下进行统计有效性分析。

第六，通过进行敏感性分析，将推断与一个或多个参数相关联，这些参数捕获了与主要缺失数据假设的偏离，例如上文概述的模式混合分析，评估关于治疗效果的推断对各种缺失数据假设的稳健性。敏感性分析是一个相对较新的领域，需要进一步研究最佳方法。当某些分析与主要分析相反时，对敏感性分析的集体结果的解释也需要更多的考虑，尽管小组的报告载有一些处理这种情况的方法。

总之，在分析阶段没有简单的方法来修复缺失的数据。目前有太多的临床试验分析采用了幼稚的缺失数据调整方法，这些方法做出了不合理的假设，例如末次观察值结转法。在试验结果的报告和解释中，缺失数据的处理需要进行科学合理的分析以及敏感性分析，以评估稳健性。无论采用何种方法，都无法充分检验分析所需的缺失数据假设的稳健性。这种需要依赖于关于缺失数据的不可检验的假设，这加强了首先防止缺失数据的重要性。关键是设计和实施试验的方式要限制数据缺失的问题。

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT，数据等资料

本公众提供各种科研服务了！

一、课程培训

2022年以来，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班，包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求，不妨点击查看：

发文后退款：2024-2025年科研统计课程介绍

二、数据分析服务

浙江中医药大学郑老师团队接单各项医学研究数据分析的服务，提供高质量统计分析报告。有兴趣了解一下详情：

课题、论文、毕业数据分析

临床试验设计与分析、公共数据库挖掘与统计