变态导师：告诉我！缺失数据多重插补后你如何逐步回归法筛选预测变量

妙趣横生统计学

已于 2024-08-09 12:29:30 修改

阅读量1.2k

点赞数 7

文章标签：人工智能数据挖掘机器学习回归

于 2024-08-06 09:57:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44693403/article/details/140998999

版权

详情请点击下方：

培训 | 医院回顾性数据分析与预测模型一对一高级学习班，快速掌握R语言分析技巧

这是一个技术难题，不少人在问，因为多重填补后很难直接开展自变量筛选进行处理。

所以作为一名知名“变态”导师的我，给研究生出了一道题目，当缺失数据采用多重填补后，怎么进行逐步回归法筛选自变量呢？

各位用自己的数据真实世界研究或者构建预测模型时，或多或少都会遇到存在缺失值的问题。对于这个问题，网上有大把的教程教你怎么使用多重插补。

但我还没有发现关于插补之后多个插补集如何进行变预测变量(自变量）选择的教程。

这个问题确实难办，难办在插补后各个插补集的预测变量未必一致，如果存在不一致的情况，就很难进入后续的分析流程了。首先想到的一个办法是选取其中一个插补集，以该插补集为准选择预测变量，选择变量的方法根据之前的来就行。

那么是否存在更为科学的办法呢？答案是肯定的。

最近看到一篇名为《Analyzing evidence-based falls prevention data with significant missing information using variable selection after multiple imputation》的文献，其中一段话打开了新世界的大门。

多重插补变量选择，一致结果！紧接着顺藤摸瓜找到标注的两篇参考文献，分别是《How should variable selection be performed with multiply imputed data》和《Variable selection for multiply-imputed data with application to dioxin exposure study》分别于2008年和2013年发布于同一期刊：《Statistics in Medicine》.

看过这两篇文献以后，发现困扰我的问题，在北京奥运之前就有学者研究过了。

先来第一个，逐步回归法与多重插补联合使用

此处的金标准是基于罗宾规则的框架进行选择，这意味着需要把每一个插补集的模型选择拟合到其他插补集上并进行综合估计，对于大型数据集和多次插补，在计算上可行性较低，最常用的方法是使用完整案例的预测因子，但这产生的偏倚会很大。

文章重点给出了一些方法，并进行模拟研究，比较哪一种方法和金标准最接近。

为了更好的解释以下的内容，这里举一个小例子：

假设有一个带缺失的数据命名为零，除结局变量以外，有三个纳入的变量分别为A，B，C。在进行插补以前（回归会自动删去有缺失的行，所以此处是分析是完整案例集），采用逐步回归法，发现留下A和B，说明A0和B0是完整案例集的预测因子。

多重插补后形成三个插补集，分别进行逐步回归。在插补集一中，三个都留下了，说明A1，B1，C1是插补集一的预测因子；插补集二中留下A和B，说明A2和B2是插补集二的预测因子；插补集三中留下A和C，，说明A3和C3是插补集三的预测因子。

第一种方法：采用完整案例的预测因子，对应例子为选择变量A和B。

第二种方法：选取一个插补集的预测因子，文章中选用第一个插补集，对应例子为选择变量A，B，C。

第三种方法为综合考虑多个插补集的结果选择，第三种方法有三种亚种，3.1乐观估计，3.2中庸估计，3.3悲观估计。

3.1乐观估计的方法是：因子只要存在于任意一个插补集中，就纳入为预测因子。对应例子为选择变量A，B，C。

3.2中庸估计的方法是：存在因子的插补集要在所有插补集中占到一定比例才纳入为预测因子。文章给出的比例为50%，对应例子，A三个插补集都纳入，比例为100%，B和C都是两个插补集纳入，比例为66.7%，所以选择变量A，B，C。

3.3悲观估计的方法是：因子要存在于所有插补集中，才纳入为预测因子。对应例子为，选择变量A。

第四种方法为堆叠数据法，把多个插补集合成一个新数据集进行逐步回归，新数据集的样本量为原先的M倍，此处三个插补集就是三倍。样本量变大会带来一个问题，标准误会变小，所以在数据堆叠的同时要进行加权。加权同样有三种方法：

4.1简单粗暴法，权重为1/M。

4.2考虑了总体缺失比例。

4.3考虑了每个变量的缺失比例。

下面这张表是模拟研究的结果：

表格中是百分数，即为各种方法，多次模拟纳入模型的各变量百分比，其中in true model是模拟设定确实是预测因子的，not in true model是模拟设定上就不是预测因子的。

这里的各项方法的变量纳入百分比和RR这一金标准纳入的比例越接近越好。可以看到3.1乐观估计真因子纳入比例高，假因子也高，3.3悲观估计真因子纳入低，假的也低，中庸法主打的就是一个平衡。最终发现堆叠加权方法的第三种和金标准是最为接近的。

-----------------------------手动分割线------------------------------

看完多重插补结合逐步回归法，再简单了解下另一种变量选择方法。

这篇文献是2013年的，文章也提到了之前2008年提出的多重插补结合逐步回归堆叠数据法。

同时，这篇文章提出了多重插补结合lasso回归法。

这种方法可以简单概括为将不同插补数据集中与同一变量相关的估计回归系数作为一个组，并一起选择或删除整个组。

对此有兴趣的话可以留言，如果感兴趣的人多，再单写一篇讲讲这种方法。

详情请点击下方：

我们提供统计服务了！医院临床数据的统计服务与培训

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。