直播课程
2024年2月27日,顶级医学期刊BMJ发表了一篇有关断点回归设计研究的指南,文中所介绍的断点回归既具有类似随机对照组的优势,又能依托于观察性研究的数据。因此推荐医学研究者在临床研究、观察性研究中广泛地采用此方法。
导读
长期以来,随机对照研究(RCT)都被视为评估医学干预和因果关系的金标准,来自RCT研究的证据被认为是质量较高的一类证据。然而,RCT研究存在耗费的人力物力大、伦理要求严格等问题、在实际实施中往往面临多种困难。因此,医学研究人员经常需要求助于观察性研究来回答关键研究问题。但观察性研究又容易受到多种偏倚、混杂因素的影响,限制了因果推断的质量。
为解决两者间的矛盾,一类新型的研究设计——断点回归设计(regression discontinuity design,RDD)被提出,并且近年来越来越多的RDD开始应用于医学研究。我们先用一个案例体会一下。
例如,我们想评估考上清华能否对未来工作的收入带来影响。
假设清华高考分数线为688分,则考试成绩为687的人无法上清华大学,而考试分数为689的人可以。那么工作收入便是结局变量y、考试分数就是自变量x,“考上清华”可以理解为一个干预措施。对于考试分数683~687分和689~693来说,这两组的总分差距不超过10分,可以认为这两组人在能力上其实没什么差别,唯一区别是能否进入清华。因此,我们围绕着688分的界值,在坐标轴上对这两组数据进行回归拟合,形成两个回归模型。模型的系数代表分数对收入的影响强度,截距项可以理解为是否考进清华带来收入差异。
上述的案例便是一个极简单的断点回归设计分析。作为一种研究设计,其背后必然有相应的应用假设和统计方法,下面我们结合BMJ发表的断点回归设计指南中的案例来谈谈。
举例:
降压药是否能降低心血管疾病风险
首先断点回归设计没有随机分组,分组依据是选择一个研究关注的与干预措施有关的分组变量(收缩压),分组变量每个取值对应有一个因变量结果(心血管疾病风险),随后采用特定的方法选择分组变量的某个值作为截断值(比如临床指南中建议收缩压≥140mmHg为降压药指征)。
这里我们引入一个“带宽”的概念,带宽是围绕截断值进行分析的范围,假设我们设计15mmHg的带宽,则断点以下和以上的两组的血压范围分别为125~140mmHg和140~155mmHg。根据截断值和带宽即可划分出干预组和对照组。
通过以上设定我们便得到了一个可用于探究降压药是否能降低心血管疾病风险的试验设计。O为纳入分析的观测数据,C为截断值,X为干预措施(例如是否服用降压药)。
接下来开始进行模型拟合。首先回顾一下模型的组成部分。1.分组变量(收缩压),2. 截断值(收缩压140mmHg),3. 干预措施(降压药),4. 结局(发生心血管病),5. 效应值(心血管病风险)。为了贴近实际,我们再加一个年龄作为协变量。
首先我们先将收缩压作为X轴、心血管病风险作为Y轴进行绘制散点图并进行多项式拟合,观察随着收缩压变化对应心血管病风险的变化情况。那么这时候问题来了,如何确定每一个收缩压对于的心血管病风险呢?
因为是否发生心血管病是一个二分类变量,通过logistics回归便可构建收缩压与心血管病风险的模型,进而得到收缩压所对应的具体心血管病风险,但别忘了协变量也要纳入到模型里。随后可绘制出如下关系图。
从上图可以看到收缩压与心血管疾病之间的整体呈正相关,符合预期。但是在图中也存在部分数据点的血压高于截断值,但发病风险却更低的情况。这便形成了一个截断值周围数据分布的“连续性”问题。RDD分析有一个基本假设,即在切点邻域内的研究对象有相似的基线特征,称为连续性假设。下文会针对截断值周围的数据开展连续性检验,此处先不予处理。
随后进行断点回归分析,生成如下结果:
结果显示,最优带宽为9.571mmHg,在140mm处,心血管病的发生风险发生“骤降”,下降值为-5.1%(95% -14.7% to 1.4%), P =0.329。
带宽选择需要权衡偏差和方差。此处由程序计算出的最优带宽为9.571mmHg,意味着此分析的结果在140mmHg±9.571mmHg的范围内具有良好的内部有效性。较小的带宽可能导致较低的偏差,这很容易理解,血压范围越窄的人群同质性也就越高,但同时也会导致在分析中使用的观察数较少而产生较大的方差。
然而此时显示的结果还没有敲定。截断值附近的发病风险的变化受三个因素影响,1. 降压药物、2. 由于截断值周围收缩压分布不均匀引起、3. 截断值周围协变量年龄分布不均匀引起。我们当然希望发病风险的变化都是由降压药物导致的,这样就可以下结论了。但在这之前,要排除其余两个因素对结果的影响,即对收缩压和协变量年龄在截断值处的分布进行连续性检验(密度函数)。
从上图的收缩压连续性检验中结果我们可以发现,没有证据表明在截断值前后血压数据的密度出现跳跃变化,可以接受密度函数在收缩压=140mmHg处连续的假设。
上图为程序生成的协变量与分组变量的连续性检验,其零假设是协变量中没有回归不连续效应。结果显示,年龄与收缩压之间总体呈正相关,符合预期。局部平均处理效应估计值(Lwald值)为0.007,95%CI(-0.081,0.095),P=0.877,即可认为协变量年龄在无穷接近于截断值的左右是可比的(即该协变量的回归不连续效应接近0)。这张图也提示为何不能简单地比较截断值以上和以下的所有个体(协变量本身也会影响结局),而应聚焦于截断值周围的局部数据。
至此,我们排除了收缩压和协变量年龄在截断值处的分布对结局的影响,可以做出以下结果描述:通过降压药物治疗,心血管病的发生风险在140mmHg处发生明显向下的跳跃,瞬时下降值-5.1%(95%: -14.7% to 1.4%),但差异不具有统计学意义(P >0.05)。
总结归纳
总结一下断点回归分析的流程:
① 明确断点回归模型的主要组成成分。结局变量、截断值、分组变量等
② 绘制分组变量与结局变量的散点图,在截断值两侧进行多项式拟合
③ 建立局部回归模型,计算带宽、估计局部平均效应及95%CI、P值
④ 连续性检验,评估分组变量、协变量在截断值周围的连续性、可比性。
在实际实践中,上述流程可以通过R语言或Stata软件快速实现(见参考资料1)。值得强调一下,RDD分析是基于连续性的假设,分析样本是从总体中随机抽取的样本,在断点处应有回归函数连续,分组变量可影响处理变量,也可对结果变量产生影响。因此,在进行RDD分析时,强调要进行连续性假设检验,以使切点两侧的分析样本满足相似性的要求。
公共卫生领域的真实世界数据很多,但现有利用RDD分析干预效果和因果关联的研究不多。RDD在内部有效性方面优于其他实验设计。与交叉滞后设计相比,RDD相对省时;而与单臂设计相比,RDD设有对照组,便于控制混杂因素。虽然RDD可与RCT媲美,但结论局限于带宽范围内,外部有效性受到一定限制。因此RDD的统计效率低于RCT, 为达到与RCT相同或类似的统计效率,建议RDD需要的样本量应不少于RCT的2.75倍。另外,基于观察性资料的RDD不仅可控制可观测的混杂因素,还可控制无法观测的混杂因素。
如今,我国医学领域数字化进程不断加快,建立了越来越来多的区域医疗卫生大数据平台,为RDD分析方法提供了良好的数据基础。在医学、公共卫生领域中,RDD分析为疾病因果关联及防控策略研究带来了新的思路。
思路最后列举一些流行病学领域中使用RDD研究案例供各位参考阅读。
1. 比较人类免疫缺陷病毒(HIV)感染者早期和延迟治疗对死亡的影响[4];
2. 评估与地面臭氧相关的空气质量警告对户外活动的影响[5];
3. 分析人乳头瘤病毒(HPV)疫苗和危险性行为的关系[6];
4. 分析在新型冠状病毒感染期间对老年人社交距离的建议[7]。
参考资料:
1.Calonico S, Jawadekar N, Kezios K, Zeki Al Hazzouri A. Regression discontinuity design studies: a guide for health researchers BMJ 2024; 384 :e072254 doi:10.1136/bmj-2022-072254
2.郭昭艳, 刘莉, 余方方, 等. 断点回归设计在流行病学研究中的应用 [J] . 中华预防医学杂志, 2021, 55(9) : 1168-1172.
3.屈水令, 张悦, 王琦琦, 金承刚, 于石成. 断点回归方法及应用实现[J]. 环境卫生学杂志, 2024, 14 (01): 1-7.
4.Bor J, Moscoe E, Mutevedzi P, et al. Regression discontinuity designs in epidemiology: causal inference without randomized trials[J]. Epidemiology, 2014, 25(5): 729-737. DOI: 10.1097/EDE.0000000000000138.
5.Neidell M. Air quality warnings and outdoor activities: evidence from Southern California using a regression discontinuity design[J]. J Epidemiol Community Health, 2010, 64(10): 921-926. DOI: 10.1136/ jech.2008.081489.
6.Frio GS, França MTA. Human papillomavirus vaccine and risky sexual behavior: regression discontinuity design evidence from Brazil[J]. Econ Hum Biol, 2021, 40: 100946. DOI: 10.1016/ j.ehb.2020.100946.
7.Bonander C, Stranges D, Gustavsson J, et al. A regression discontinuity analysis of the social distancing recommendations for older adults in Sweden during COVID-19 [J]. Eur J Public Health, 2022, 32(5): 799-806. DOI: 10.1093/eurpub/ckac101.
本公众提供各种科研服务了!
一、课程培训 2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看: 二、数据分析服务 浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情: |