什么样的模型对缺失值更敏感？

最新推荐文章于 2024-04-28 21:37:12 发布

HW_WY

最新推荐文章于 2024-04-28 21:37:12 发布

阅读量8.3k

点赞数 8

分类专栏：机器学习

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78265671

主流的机器学习模型千千万，很难一概而论。但有一些经验法则(rule of thumb)供参考：

1. 树模型对于缺失值的敏感度较低，大部分时候可以在数据有缺失时使用。

2. 涉及到距离度量(distance measurement)时，如计算两个点之间的距离，缺失数据就变得比较重要。因为涉及到“距离”这个概念，那么缺失值处理不当就会导致效果很差，如K近邻算法(KNN)和支持向量机(SVM)。

3. 线性模型的代价函数(loss function)往往涉及到距离(distance)的计算，计算预测值和真实值之间的差别，这容易导致对缺失值敏感。

4. 神经网络的鲁棒性强，对于缺失数据不是非常敏感，但一般没有那么多数据可供使用。

5. 贝叶斯模型对于缺失数据也比较稳定，数据量很小的时候首推贝叶斯模型。

6. 总结来看，对于有缺失值的数据在经过缺失值处理后：

(1) 数据量很小，用朴素贝叶斯

(2) 数据量适中或者较大，用树模型，优先 xgboost

(3) 数据量较大，也可以用神经网络

(4) 避免使用距离度量相关的模型，如KNN和SVM

关注

8
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
什么样的模型对缺失值更敏感？

https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78265671主流的机器学习模型千千万，很难一概而论。但有一些经验法则(rule of thumb)供参考：1. 树模型对于缺失值的敏感度较低，大部分时候可以在数据有缺失时使用。2. 涉及到距离度量(distance measurement)时，如计算两个点之间的距离...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。