面对数据缺失，如何选择合适的机器学习模型？

最新推荐文章于 2022-04-13 14:45:48 发布

量子位

最新推荐文章于 2022-04-13 14:45:48 发布

阅读量3.2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78265671

版权

本文探讨了机器学习模型如何处理数据缺失值，指出决策树和xgboost对缺失值的处理方式。强调了用户应当理解数据，而非完全依赖工具包的自动处理。文中还建议在数据量小时使用朴素贝叶斯，中等时采用树模型如xgboost，大量数据时考虑神经网络，并避免使用KNN和SVM等依赖距离度量的模型。

摘要由CSDN通过智能技术生成

作者：阿萨姆
普华永道 | 数据科学家
量子位已获授权编辑发布
转载请联系原作者

有些小伙伴在实际使用中发现xgboost可以自动处理缺失值，而有些模型不可以。我想先从两个角度解答这个困惑：

工具包自动处理数据缺失不代表具体的算法可以处理缺失项
对于有缺失的数据：以决策树为原型的模型优于依赖距离度量的模型

回答中也会介绍树模型，如随机森林(Random Forest)和xgboost如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。

1. 机器学习工具库开发的“哲学”

首先你有这个困惑是因为你直接调用了工具库，比如Python的sklearn和xgboost等，所以你认为算法A可以自动处理缺失值而B不可以。

但真实情况是…开发者在封装工具库的时候就已经考虑到了使用者可能导入了含有缺失值的数据，所以加了一个缺失值处理的函数。处理缺失值的不是算法A，而是开发者额外写的函数。

但是，模型/算法本身不应该处理缺失值，处理缺失值的应该是用户。然而在现实情况下，如果用户不处理/不知道怎么处理，我们也必须提供一个默认的缺失值处理方法。但是这种自动处理的缺失值，效果往往不好，因为数据的精髓只有用户自己明白。

工具包提供自动数据清理的功能的好处：

防止用户导入的数据不符合模型要求而导致失败
节省用户的时间，提供一站式服务

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。