决策树、随机森林中的多重共线性问题

最新推荐文章于 2023-07-07 19:54:06 发布

佐佑思维

最新推荐文章于 2023-07-07 19:54:06 发布

阅读量8.5k

点赞数 15

分类专栏： Python数学算法文章标签：机器学习随机森林决策树

本文链接：https://blog.csdn.net/weixin_45288557/article/details/117732831

版权

23 篇文章

订阅专栏

1、回答1

随机森林的预测能力不受多重共线性影响。

但是数据的解释性会被多重共线性影响。随机森林可以返回特征的重要性（importantce），当有多重共线性时，importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消，从而影响我们解释和理解特征。

比如说，特征A和B完全一样，我们在用随机森林时，它们的重要性应该非常接近（考虑到随机性）。如果我们在训练前删除特征B，那么特征A的重要性就会翻番。这一下子就影响了我们对特征、数据的理解。

多重共线性的特征不会对决策树、随机森林的预测能力有影响。

多重共线性最极端的情况是有两个完全一样的特征，特征A和特征B。当特征A被使用之后，决策树不会再选择使用特征B，因为特征B并没有增加新的有效信息。同理，如何决策树先选择了使用特征B，那么特征A也不会再被使用。

所以基于树的模型不会收到多重共线性的影响。

参考这个实验英文原文，结论：

We found that our best model was one that used many features and didn’t have fake data
Colinearity didn’t matter - the RF model was making the splits based on what worked and not necessarily trying to balance features
Always check to be sure!!

如果没时间看的话，我可以直接告诉你结论，多重共线性不影响random forest的预测能力。

在做线性回归时，假设之一是要求自变量之间没有强共线性，但是用决策树模型做预测时，却没有这个要求。于是乎，查询了一下，在Quora上找到了相关答案。Is multicollinearity a problem with gradient boosted trees?

总结一下，主要有下面几个原因：

在统计分析中，作推断（inference）时，如果自变量存在共线性，将无法区分它们对因变量的影响，因此无法对结果进行清除的解释。
但是作预测（prediction）时，我们并不关系如何解释自变量对因变量的影响。GBT 也更像一个black-box，很适合做预测分析。
做预测分析时，即时我们用OLS方法，如果特征存在强相关性，会导致特征矩阵不可逆，但此时，我们仍然可以利用psedoinverse matrix进行计算。
做预测时，往往用贪婪算法进行变量选择，只有新变量对结果影响比较大时，才会被加入到模型中，因此，在step-wise variable selection的过程中，共线性的变量只有一个会被选入到模型中。在决策树模型中，每一个树的构建都是贪婪的，因此，冗余的特征并不会被加入模型中。