公共数据库SEER文章复现：生存时间资料的倾向性得分匹配，全流程搞定

最新推荐文章于 2024-04-02 17:31:37 发布

妙趣横生统计学

最新推荐文章于 2024-04-02 17:31:37 发布

阅读量1.7k

点赞数 15

本文链接：https://blog.csdn.net/weixin_44693403/article/details/135281703

版权

倾向得分匹配法是通过对样本建模（logit模型）得到倾向性得分，通过倾向性得分为试验组在对照组中找到最接近的样本，从而进行研究的。

倾向得分匹配在真实世界临床研究用途越来越广泛，它是一种事后推动组间比较均衡化的方法。但是对样本量要求会高一点，如果样本太小，会导致处理组许多样本在控制组中找不到能匹配的样本，因此，对于样本量充足的研究，可以考虑一下PSM法来控制混杂偏倚。

接下来通过一份是实操数据集为大家详细介绍PSM法控制混杂的全套分析流程，从基线表——PSM——PSM后的回归分析，通通一文搞定！

一、实操案例介绍

数据集来源于seer公共数据库的一份白血病数据，相关变量及对应编码如下。(如需获取实操数据，可在“医学论文与统计分析”公众号后台回复“seer白血病”)

二、R语言实操

1.安装加载R包

本次实操，我们需要先对数据进行倾向性得分匹配，再对匹配后的数据开展生存分析，分析主要用到以下R包，其中“MatchIt”包用于倾向性得分匹配，“survival”和"survminer"是生存分析中的常用包，“autoReg”是一款功能清大的包，各种回归分析不在话下，建议诸位同学可以自行探索一下。（如需获得本次实操代码，可在“医学论文与统计分析”公众号后台回复“seer白血病”）

2.导入并整理数据

导入数据后，对数据的处理主要包括数据的重编码，数值型数据在R语言分析中会更加灵活；定量数据转分类以及变量类型转换。

3.基线差异性分析

这里用到了tableone，这个包可分组给出变量的均值（标准差）/频数（频率）以及组间比较的结果，比较遗憾的是并不显示统计量。

代码解读：“vars”设定要描述统计的变量，”strata”指定分组变量，”data”设定数据集，”factorVars”指定分类变量。

4.倾向性得分匹配

首先，根据研究需要选择需要匹配的变量，其中~之前的变量（如chemotherapy)是分组变量，也是我们要研究的关键变量，~之后的变量则是其他混杂变量。

代码解读：matchit(formula, data = NULL, method = “nearest”,distance = “glm”, m.order = NULL, ratio = 1,caliper = NULL, replace = FALSE)中，“method”指匹配使用的方法，这里用到了“nearest"是最近邻匹配，也是此R包的默认选项，其他常用的匹配方法还有”exact“精确匹配，”full“完全匹配等。”distance“指用于计算倾向性评分的方法，默认值是“glm”也就是logistic回归法。”m.order"是匹配发生的顺序，这里选择“random”随机，这种情况下可能出现同样代码每次运行出现不同匹配结果的情况，默认为“largest”。“ratio"限制匹配比例，等于1为1：1匹配，数据差距悬殊时，也可以1：2或者1：3、1：4。"caliper”也就是卡钳值，默认为NULL，卡钳值越小，匹配越严格，匹配上的概率也有越小，但是卡钳值过大，同样不利于控制混杂，因此在实际操作中通常设为0.01-0.1，“replace”指对于允许匹配的方法，是否通过替换进行匹配，默认为F。

5.匹配后数据描述及均衡性比较

①SMD版

结果如下：

②P值版

这里同样用到了tableone包，代码比较简洁，好操作。

结果如下：

6.绘制KM曲线

代码解读：”conf.int“为T,则显示置信区间，”pval “可以自定义在绘图上显示的文字，”risk.table“规定了风险表是否显示，T为显示，“legend.lab”与”legend.title"定义了图例的名字与分类名字，“linetype”定义线型大小，“xlim”与“ylim”定义了x轴与y轴的区间范围，“break.x.by”定义x轴最小单位，“ggtheme”定义了绘图主题。