中医药研究文章再发国际顶刊！我今天来聊聊多组两两比较的统计学方法-CSDN博客

本文链接：https://blog.csdn.net/weixin_44693403/article/details/142535634

之前我们对我国学者的一篇发表在顶级期刊《Annals of Internal Medicine》（医学一区top，IF=19.6）的一篇中医药临床试验文章进行了解读，同时对其统计学方法展开论述！

该研究是一项为期 24 周的多中心随机对照临床试验，研究团队在四川、贵州、陕西、山西设立4个临床分中心，纳入716例慢性颈痛患者，随机分为高敏化穴（HSA）组、低敏化穴（LSA）组、假穴（SA）组和等待治疗（WL）组。评价针刺治疗颈部慢性疼痛的效果，结局指标为颈部疼痛视觉模拟量表（VAS）评分。

现在我们把它做成一个系列进行解读：

1. 医学院那就统计学方法约复杂越好

2. 多组比较时多重比较应该如何控制假阳性问题？

3. 多组研究设计样本量如何计算？

在这篇文章中，我讨论多重比较如何控制假阳性。

今天从三个方面详细说说！

1什么情况下需要进行两两比较？

2如何进行两两比较？每两组都要比吗？

3多重比较，如何控制假阳性错误？

1.什么情况下需要进行两两比较？

在医学研究中，方差分析，卡方检验，秩和检验等方法都会碰到多组数据的比较，多组数据比较紧跟着的是两两比较，这是我们最熟知的。

但不只这个，在医学研究上可以包括以下几类：

1）多组数据两两比较

2）多个结局指标比较

3）临床试验的期中分析（2次，3次期中分析）

4）亚组比较（多个人群）

2.如何进行两两比较？每两组都要比吗？

不同情况下，对于两两比较的设计并不相同，是不是多重比较中，每两个都要进行两两比较呢？很显然，并不是这样！

多重比较并不一定要对每一对组别都进行两两比较。在实际应用中，这取决于你的研究设计和具体需求。

如果你只关心特定的几个成对组合，那么就只需要对这些感兴趣的组合进行比较。例如，其他组别都只与对照组进行两两比较；或者你对两个干预组之间是否有差异更感兴趣。
如果你的目标是检测所有组别之间是否存在显著差异，那么确实需要对每一对组别都进行比较，进行全面的两两比较。

但是，超过4组数据多重比较时，不要全部进行两两比较（全部两两比较要进行10次。此时，你想要某一个感兴趣的比较出现阳性结果会很难）。

比如，4组比较，我感兴趣的是1 和 4组有没有差别，但是如果采用全部两两比较时，很难得到1 和 4的差别，因为单次比较的P要小于0.005才有统计学意义。那么怎么办呢？

这时，可以挑选若干组进行比较，采用α分割法控制假阳性错误。比如，4组比较，我就比较1 vs 4，1 vs 3，那么比较两次α=0.05/2=0.025，即这个时候可以采用t检验，当P<0.025便具有统计学意义。

★注意：这种挑选比较的方式，必须在数据分析之前，甚至在科研设计之前，就是必须先设定好，而不是谁有阳性就挑选谁！

3.多重比较，如何控制假阳性错误

临床研究中的多重性（multiplicity）是指在一项完整的研究中，需要经过不止一次统计推断（多重检验）对研究结论做出决策的相关问题。那么就可能会增加假阳性错误的概率，导致I类错误膨胀。

例如，若进行 10 个检验，当无差异假设均为真时，此时假阳性的概率高达 40%

所以，控制假阳性错误显得尤为重要，我们简单介绍几个常用方法：

（1）平行策略多重性调整方法——Bonferroni方法

郑老师：它是保守的方法，但是我还是蛮喜欢用，实际上临床研究很认可。

（2)序贯策略多重性调整方法——Holm 递减方法

（3)序贯策略多重性调整方法——Hochberg递增方法

（4)序贯策略多重性调整方法——固定顺序的检验方法

（5）序贯策略多重性调整方法——回退法

4. 本案例的多重比较方法

我们所参考的这篇中医药临床试验文章，考虑到多重比较，利用Bonferroni校正(校正P值为0.017)对两两比较进行了校正。

为什么？在本案例中，四组数据的比较如果全部两两比较，需要比较6次，若采用Bonferroni法分割时α=0.008，这显然不利用分析结果，而且干了一些不是研究目的的事情，不仅画蛇添足而且对我们想要评价的主要目的产生严重的影响。

该研究其实想探讨的几个关键比较，所以α/3=0.017，再这样的研究目的下，一般只能讨论高敏化穴相对于其它三组有没有差异，但这样的话，其实没法提供低敏化穴相对假针组、等待组的差异性数据。

The modified intention-to-treat population included 683 participants. The mean baseline VAS was 50.36, 50.10, 49.24, and 49.16 for HSA, LSA, SA, and WL, respectively. Compared with a mean baseline to week 4 change of 12.16 in the HSA group, the mean changes were 10.19 in the LSA group(net difference [ND], 1.97 [95% CI, 5.03 to 1.09]), 6.11 in the SA group (ND, 6.05 [CI, 9.10 to 3.00]), and 2.24 in the WL group (ND, 9.93 [CI, 12.95 to 6.90]).

不过呢，老郑看它具体分析内容，似乎有那么点值得争议的地方，或者多余的内容，有兴趣的朋友可以看看原文。

闲来郑语

其实，不是所有医学研究多重比较都要控制假阳性。

医学研究，有随机对照研究，也有观察性研究，多组比较实际上大多数都不用控制，尤其是观察性研究，因为观察性研究绝大多数是探索性的研究。

只有验证性的随机对照研究才需要，比如3期临床试验。其他的探索性研究，很多临床大夫发起的临床试验，都可以不用控制。

但你得加一句：我的结果是探索性的结果，而不是验证性的。

我们将继续推出统计学细节讲解，继续介绍这篇文章的统计学方法，说到多组比较，你知道临床试验多组比较样本量怎么计算吗？

下一期，我们来一起探讨，敬请关注。