作者:阿萨姆
普华永道 | 数据科学家
量子位 已获授权编辑发布
转载请联系原作者
有些小伙伴在实际使用中发现xgboost可以自动处理缺失值,而有些模型不可以。我想先从两个角度解答这个困惑:
-
工具包自动处理数据缺失不代表具体的算法可以处理缺失项
-
对于有缺失的数据:以决策树为原型的模型优于依赖距离度量的模型
回答中也会介绍树模型,如随机森林(Random Forest)和xgboost如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。
1. 机器学习工具库开发的“哲学”
首先你有这个困惑是因为你直接调用了工具库,比如Python的sklearn和xgboost等,所以你认为算法A可以自动处理缺失值而B不可以。
但真实情况是…开发者在封装工具库的时候就已经考虑到了使用者可能导入了含有缺失值的数据,所以加了一个缺失值处理的函数。处理缺失值的不是算法A,而是开发者额外写的函数。
但是,模型/算法本身不应该处理缺失值,处理缺失值的应该是用户。然而在现实情况下,如果用户不处理/不知道怎么处理,我们也必须提供一个默认的缺失值处理方法。但是这种自动处理的缺失值,效果往往不好,因为数据的精髓只有用户自己明白。
工具包提供自动数据清理的功能的好处:
-
防止用户导入的数据不符合模型要求而导致失败
-
节省用户的时间,提供一站式服务