临床试验中样本量确定的统计学考虑

最新推荐文章于 2024-10-08 08:54:50 发布

刘永鑫Adam

最新推荐文章于 2024-10-08 08:54:50 发布

阅读量2.3w

点赞数 10

原文链接：https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA#rd

版权

样本量确定(sample size determination)，又称样本量估计(sample size estimation)，是指为满足统计的准确性和可靠性(I类错误的控制和检验效能的保证)计算出所需的样本量，它是临床试验设计中一个极为重要的环节，直接关系到研究结论的可靠性、可重复性，以及研究效率的高低。样本量估计也是一个成本-效果和检验效能的权衡过程。ICHE9(1998)指出，临床试验的样本量必须足够大，以可靠地回答研究假设所提出的相关问题;同时又不至于太大而造成浪费。样本量的估计方法应该在研究方案中详细阐述，包括计算样本量所依据的参数，如方差、均数、反应率、阳性事件发生率、差值等。本文适用于确证性试验。

样本量估计需考虑的主要因素

在确定临床研究的目的之后，首先考虑试验设计，包括对照的选择(如标准对照、阳性对照、安慰剂对照、剂量对照等)、比较类型(如优效性试验、非劣效性试验、等效性试验)、设计类型(如平行设计、交叉设计、析因设计、成组序贯设计等)、主要指标(定量、定性、生存时间)等;其次考虑统计分析方法，并提出效应量(effect size)的假定;然后根据试验特点定义统计特征，如统计分布、检验水准(significant level)、检验效能(power)、单双侧和分配比例等;再应用正确的样本量估计方法计算出样本量;最后根据协变量、试验中的脱落率、剔除率和依从性等具体情况进行适当调整。

1.研究目的与试验设计

(1)研究目的

就临床试验而言，在确证性研究中研究目的主要体现在有效性评价和安全性评价两个方面。样本量估计常用于有效性评价。

(2)比较类型及其检验假设临床试验常用的比较类型有优效性试验(superiority trial)、等效性试验(包括生物等效性试验)(equivalence trial)、非劣效性试验(non-inferiority trial)等。下面以两组效应量为均数的正向指标比较为例，设定优效、等效和非劣效的界值为Δ，说明它们的检验假设与推断结论。

优效性试验:试验的目的是验证试验组效应是否优于对照组，如果研究不设定优效界值，其检验假设为:

此时，若P≤α，则可推断试验组疗效优于对照组。等效性试验:试验的目的是验证试验组效应是否与对照组相当。如果研究设定等效界值Δ，其检验假设为:

非劣性试验:试验的目的是验证试验组效应是否非劣于对照组。如果研究设定非劣效界值Δ，其检验假设为:

H0:μT-μC≤-Δ;

H1:μT-μC>-Δ。

此时，若P≤α，则可推断试验组疗效非劣于对照组。

(3)设计类型

临床试验的设计模型相对比较简单，常用的有平行设计、交叉设计、析因设计、序贯设计、群随机设计和适应性设计等。有关这些设计的详细介绍可参考相关文献。

2.主要指标

临床试验的样本量通常依据对主要指标做出相应的假定后进行估计的。在II、III期临床试验中主要指标一般是有效性评价指标，上市后的IV期临床试验主要指标可以是有效性评价指标，也可以是安全性评价指标，或兼而有之。如果样本量估计应同时依据主要有效性指标和主要安全性指标，在设计时应针对有效性和安全性分别提出统计假设，逐一计算样本量，最终样本量取其中最大者。主要指标应在研究方案中明确定义，通常需根据专业知识确定，应是专业领域具有共识的或认可程度较高的指标，一般源于某一标准或指南，或源于专业领域公开发表的权威论著或专家共识等。主要指标不宜太多，一般只有一个。当主要指标有多个时，样本量估计要考虑假设检验的多重性问题。

在定义主要指标过程中，不仅要说明指标的含义，其测量时点、测量手段以及计算方法都应注明。指标的类型要明确，这一点非常重要，因为样本量估计和数据分析都需要依此进行。例如，某些指标可以有定量、定性(如有效和无效)、等级(如痊愈、显效、有效、无效)、生存时间等不同类型。对应于指标的不同类型，样本量估计方法亦不相同。所以，方案中对主要指标的定义要具体到指标类型上。

3.效应量

效应量是样本量估计所需的最重要参数之一，根据不同的指标类型，常见的效应量有:均数的组间差值或标准化差值，率的组间差值或比值(RR、HR)、OR，或相关系数、回归系数等。效应量参数的确定主要基于下述三种途径:

(1)本项目的任何既往研究结果。即源于同一项目的预试验、探索性试验(I期或II期临床试验)、单中心试验的结果等作为确定参数的依据。由于此类研究结果属于内部证据，因此是首选途径。

(2)基于他人的研究结果。当本项目的先前研究无法提供确切的参数数据，或尚未开展研究时，参数的确定可以以公开发表的研究结果作为依据。由于此类研究结果属外部证据，因此是次选途径。若公开发表的同类研究报道不止一个，最好是经meta分析所得合并效应量作为样本量估计的参数。

(3)基于本试验的预期结果。如果本试验没有任何之前的研究结果可以借鉴(无论是自己的还是他人的)，或以往的研究数据不能得到本试验设计所需的参数(如本试验采用交叉设计，而以往研究数据均来自两平行组设计的研究)，可以用预期的形式进行预设，通常以广义效应量表达。若对试验药物或器械有充足信心，则预期效应量较大(如设为0.8)，此时所需样本量较小。若对试验药物或器械信心不足，则预期效应量较小(如设为0.2)，此时所需样本量较大。若对试验药物或器械的信心尚可，则预期效应量为中等水平(如设为0.5)，此时所需样本量也是中等大小。

此外，对于单臂设计或配对双臂设计，若涉及标准对照参数(或目标值)的确定，其途径的优先顺序大致为国际标准、国家标准、行业标准(含指南等)、被权威机构认可的企业标准、外部证据(同类研究的综合结果，如meta分析结果)。

4.统计特征

样本量估计需要考虑的统计特征主要有统计分布、检验水准、检验效能、单双侧和平衡与否等。

统计分布:样本量估计方法的选择与主要指标的统计分布假定密切相关，基于正态分布的假定会选择参数方法，基于非正态分布的假定会选择非参数方法。同样，生存分析的样本量估计方法会因Weibull分布族的假定有所不同。

检验水准:检验水准也就是I类错误概率，用α表示，以双侧0.05的水准最为常用。对于优效性检验设定单侧α=0.025的情形，以及等效性或非劣效性检验设定双单侧的α=0.025的情形，其本质仍然是双侧0.05的检验水准。但在某些情况下检验水准的设定会有所不同。例如，为控制整体I类错误概率α，涉及多重检验时(如定义多个主要指标)，每次检验的名义检验水准α*将小于或等于α;涉及期中分析时，考虑α消耗，每次检验的α*将小于α。此外，对于生物等效性检验，习惯取双侧α为0.1。

检验效能:用1-β表示，β代表II类错误概率。检验效能是指在设定的α基础上，原假设H0为假且检验结果拒绝了H0的概率。检验效能越高，发现差别的可能性越大，但同时所需样本量也越大。临床试验中，检验效能通常不得低于80%。在样本量估计过程中，可通过对检验效能的敏感性分析提供不同的样本量方案，供研究人员选择。

单侧和双侧检验:单侧检验的样本量会明显小于双侧检验的样本量。一般而言，医学研究领域的统计检验约定俗成地使用双侧检验，如果采用单侧检验，需要给出充足的理由。需要指出，对于一般意义的检验水准0.05而言，如果取单侧水准为0.025的话，其实质仍然是双侧0.05水平。

平衡或非平衡设计:所谓平衡设计，即每组的样本量相同。在其他条件不变时，各组样本量相同时平衡设计效率最高，即试验所需总样本量最小。因此，研究设计应尽可能采用平衡设计。非平衡设计是指比较组间的样本量有明显差别，习惯上这种差别成倍数关系，例如，新药III期临床试验，因为安慰剂对照的疗效相对可以确定，同时出于伦理考虑，安慰剂对照组的样本量会安排的少一些，而试验组的样本量相对要大一些，比如是对照组的2倍或3倍。

样本量估计原理和方法

1.样本量估计原理

样本量估计的方法通常是从检验统计量计算公式反推而来。一般地，统计推断的效应量可认为是给定模型参数θ的函数f(θ)，用T表示f(θ)的一个无偏估计统计量，若数据来自正态分布，或根据中心极限定理，有：

基于t分布，则检验统计量服从非中心t分布，通过迭代计算可求出样本量，即：

当统计量T=logHR时，我们同样可以先求出Var(T)，然后代入公式(4)中计算样本量，此时所得样本量计算公式可拆解成一个关于所需阳性事件数(number of events)与个体发生阳性事件概率的表达式，这也是目前最常用的方法。

2.样本量估计方法

样本量估计方法，即样本量的计算公式，应根据研究背景、研究假设、设计模型、主要评价指标的数据特征等做出正确选择。由于样本量计算公式繁多，本文不做详细介绍，读者可参考《中国卫生统计》2012年至2014年连续刊发的“样本量估计及其在nQuery和SAS软件上的实现”系列文章(共19篇)[9]。该系列文章以样本量估计专业软件nQuery Advisor7.0为依据，系统介绍常用的样本量估计方法，给出计算公式及其权威出处，通过实例加以说明，同时还给出了SAS9.2软件实现的程序，便于广大读者应用。表1列出了常用的样本量估计方法，可看作通过统计检验方法正确选择样本量估计方法的一个索引。

样本量估计的其他考虑

1.样本量的调整

根据统计学方法估计出的样本量是在给定条件下满足临床试验所需的最小样本量。实际试验过程中，由于病例的脱落和剔除、病例依从性差等原因，会导致可评价例数的减少。因此，需要在样本量估计基础上适度扩大样本量，以保证最终的有效样本量可以满足最小样本量的要求。从分析角度讲，需保证最终的可评价样本量(即符合方案数据集(per-protocol set)的例数)应大于经样本量估计方法求得的样本量。样本量调整通常会考虑不大于20%的脱落剔除率，具体的脱落剔除率如何确定，将视不同的研究项目而定，确定的依据主要来自专业方面的判断，或经由以往研究数据的meta分析为重要参考。

当亚组分析的结果是主要疗效指标时，则应保证最终的亚组可评价病例达到最小样本量。临床试验结果可能受某些预后因素(协变量)的影响，如年龄、性别、病情程度等。样本量估计时一般不考虑预后因素，主要是因为随机分组可使各组间的协变量达到均衡。

2.样本量再估计

样本量再估计较多地用于适应性设计。适应性设计样本量再估计常用的三种方法如下。

(1)成组序贯设计:每组的样本量固定，每次期中分析的目的是对是否终止试验(成功或失败)或进入下一周期的试验做出决策。

(2)固定期中分析:每次期中分析对参数重新进行估计，并据此对样本量做出新的估计和调整，但不对检验假设进行检验。

(3)上述两种方法的结合:每次期中分析既对参数重新进行估计，并据此对样本量做出新的估计和调整;又对检验假设进行检验，以判断是否终止试验(成功或失败)或进入下一周期的试验。上述三种方法均属于期中分析的样本量估计问题，详细过程可参阅文献[9]。需要指出，基于期中分析的样本量再估计应尽可能地在盲态下进行。

临床试验方案中对样本量估计的要求

在临床试验方案中，需要对样本量估计进行清晰和完整的阐述，应至少包含以下内容:试验的研究假设，对照的类型，比较类型，设计模型，主要指标，将要用到的统计分析方法，参数(包括等效或非劣效界值)的来源以及依据，检验水准(若涉及多重检验或期中分析，需解释确定检验水准的依据)，检验效能，单双侧检验，分配比例，样本量估计方法及其出处(列参考文献)，所用软件及其版本，样本量调整及其依据，各组以及各中心的样本量分配(列表)，若竞争入组需特别说明。

常见问题回答

Q1.样本量估计有哪些专用软件?

目前常用的样本量估计软件有nQuery Advisor+nTerim，PASS，DSTPLAN，G*Power，PC-Size，PS，SAS Power and Sample Size application(PSS)，Stata，R。这些软件中，nQuery和PASS是其中最常用的，它们涵盖了几乎所有的样本量统计方法。下面对这些软件做一简要介绍。

nQueryAdvisor+nTerim:爱尔兰Statistical Solutions公司开发的商业软件，由nQuery Advisor 7软件加入nTerim模块组成，前者原先是一独立样本量估计软件，后者是专门用于期中分析的样本量估计模块。目前最新版本为3.0，运行于Windows平台。该软件同时得到美国FDA、欧洲药品管理局、日本、韩国的官方认可，为世界制药企业和生物技术公司50强中的49家所使用。内容几乎已经涵盖了样本量计算的所有方面。《中国卫生统计》连载的系列文献系统介绍了常用的样本量估计方法[9]，给出了计算公式及其出处，并附有样本量估计专业软件nQuery Advisor 7.0的操作主界面和样本量估计中参数设置的界面，同时还给出了SAS9.2软件实现的程序，便于广大读者应用。

PASS:美国NCSS公司开发，是一款运行在Windows平台下的商业软件，目前最新版本为13。类似于nQuery，它也覆盖了几乎所有的样本量计算方法，其官方网站宣称用到的统计方法已经超过了230种。DSTPLAN:是一款运行在Windows环境下的免费软件，其本身是基于Fortran语言构造，由安德森癌症中心开发。包括的统计分析方法有t检验、相关分析、率的比较、2×N的列联表检验，以及生存分析的差异性检验。

G*Power:是一款在Windows以及MacOSX环境下运行的免费软件，由德国杜塞尔多夫大学开发。包括的统计分析方法有t检验、One-wayANOVA、回归分析、相关分析以及拟合优度分析。该软件在用户输入关键参数后就会立即给出效应量。PC-Size:是一款运行在Windows环境下免费的DOS命令行软件。包括的统计分析方法有t检验、方差分析、回归分析、相关分析以及率的比较。该软件也可计算效应量。

PS:是一款运行在Windows环境下的免费软件，包括的统计分析方法有t检验、卡方检验、Fisher确切概率法、McNemar检验、回归分析以及生存分析等。

SAS/PowerandSampleSizeapplication(PSS):该软件运行于Windows环境，软件附带在整个SAS系列内随同安装。虽然由SAS公司开发，但包括的统计分析方法非常有限，只有t检验、率的比较、相关分析、回归分析、方差分析以及生存分析。Stata/R:Stata以及R严格说来应该是编程语言而不是现成的软件。理论上只要编程得当，可以实现任何样本量计算的统计方法。

此外，还有大量在线的样本量估计软件或程序，但对于其正确性和权威性难以一一做评，所以还是鼓励示，恶性肿瘤、损伤与中毒、循环系统疾病是中年人的三大主要死亡原因，而且男性死亡人数明显高于女性。作者认为，第一、确实加强环境保护;第二、全社会要从社会、心理和生理的多维角度关爱中年人，使中年人具有健康的身心和良好的生活习惯，减少疾病发生;第三、加强劳动安全、驾驶安全的培训和相关安全制度的落实，安全重于泰山，尽量减少损伤和中毒造成的死亡;第四、医务人员要重视健康教育，防患于未然，努力做到恶性肿瘤等疾病的早发现、早诊断和早治疗，提高医疗质量，延长生存期，减少死亡率。

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。