缺失数据填补新方法:递归特征消除+随机森林,也许更优!

2024-2025 课程介绍

可预开发票,郑老师团队2024-25年科研统计课程预告,含机器学习、轨迹模型等11.30-12.1 R语言构建机器模型课程开启

数据集中的缺失值对数据分析带来了重大挑战,特别是在数据准确性对患者诊断和治疗至关重要的医疗领域。尽管MissForest(MF)在填补研究中被证明是有效的,递归特征消除(RFE)在特征选择中被证明是有效的,但通过RFE集成来增强MF的潜力仍未被探索。

11月8日,我们看到在期刊《BMC Medical Research Methodology》(医学三区,IF=3.9)发表了题为“A novel MissForest-based missing values imputation approach with recursive feature elimination in medical applications”的研究论文,这篇文章通过结合随机森林和递归特征消除,性能超过了传统的MICE,即使用默认方法的MICE。

结果表明,新的填补方法——递归特征消除-随机森林(recursive feature elimination-MissForest, RFE-MF)有望成为医疗数据集的有效插补方法,为解决医疗应用中缺失数据的挑战提供了一种新的方法。

659a4a4361cd97e15fd104a0fa81e01c.png

如果你需要全文,请公众号后台回复关键词“pdf”。如果您在统计分析过程中遇到难题,郑老师的统计团队可以提供帮助!详情可咨询助教,微信号:aq566665

缺失数据,定义为在给定的观测值中没有记录变量的数据点。这个普遍存在的问题跨越了各个领域。在医学研究中,数据缺失带来了重大挑战,可能影响后续的统计分析和预测模型。这些挑战具有广泛影响,影响临床决策过程,并最终影响患者医疗质量。医学研究中的数据缺失问题迫切需要科学的方法来解决。

传统缺失值插补方法各有优缺

目前,许多学者开发并实施了各种缺失值估算(MVI)技术,旨在用衍生估计值取代缺失值,从而保持数据集的完整性和实用性。在医学领域,传统的几种方法被广泛应用,包括均值/众数插补法、k近邻(kNN)、链式方程多重插补(MICE)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值