决策树、随机森林中的多重共线性问题

对于线性回归模型,数据中是不能有多重共线性的。我想知道如果使用决策树或者随机森林或者其他一些基于树的模型,数据中的多重共线性的现象对模型有没有什么影响?

1、回答1

随机森林的预测能力不受多重共线性影响

但是数据的解释性会被多重共线性影响。随机森林可以返回特征的重要性(importantce),当有多重共线性时,importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消,从而影响我们解释和理解特征。

比如说,特征A和B完全一样,我们在用随机森林时,它们的重要性应该非常接近(考虑到随机性)。如果我们在训练前删除特征B,那么特征A的重要性就会翻番。这一下子就影响了我们对特征、数据的理解。

2、回答2

多重共线性的特征不会对决策树、随机森林的预测能力有影响。

多重共线性最极端的情况是有两个完全一样的特征,特征A和特征B。当特征A被使用之后,决策树不会再选择使用特征B,因为特征B并没有增加新的有效信息。同理,如何决策树先选择了使用特征B,那么特征A也不会再被使用。

所以基于树的模型不会收到多重共线性的影响。

3、回答3

参考这个实验英文原文,结论:

  • We found that our best model was one that used many features and didn’t have fake data
  • Colinearity didn’t matter - the RF model was making the splits based on what worked and not necessarily trying to balance features
  • Always check to be sure!!

如果没时间看的话,我可以直接告诉你结论,多重共线性不影响random forest的预测能力。

4、回答4

在做线性回归时,假设之一是要求自变量之间没有强共线性,但是用决策树模型做预测时,却没有这个要求。于是乎,查询了一下,在Quora上找到了相关答案。Is multicollinearity a problem with gradient boosted trees?

总结一下,主要有下面几个原因:

  1. 在统计分析中,作推断(inference)时,如果自变量存在共线性,将无法区分它们对因变量的影响,因此无法对结果进行清除的解释。

  2. 但是作预测(prediction)时,我们并不关系如何解释自变量对因变量的影响。GBT 也更像一个black-box,很适合做预测分析。

  3. 做预测分析时,即时我们用OLS方法,如果特征存在强相关性,会导致特征矩阵不可逆,但此时,我们仍然可以利用psedoinverse matrix进行计算。

  4. 做预测时,往往用贪婪算法进行变量选择,只有新变量对结果影响比较大时,才会被加入到模型中,因此,在step-wise variable selection的过程中,共线性的变量只有一个会被选入到模型中。在决策树模型中,每一个树的构建都是贪婪的,因此,冗余的特征并不会被加入模型中。

机器学习模型是否需要考虑变量共线性问题?

https://www.zhihu.com/question/309308502有更多回答,可自行查看

多重共线性的问题是导致了小样本条件下,标准误会比较大。
ML模型一般:

  1. 使用大样本
  2. 不需要做参数的假设检验

所以没什么影响。

而且机器学习模型通常有正则化,比如Lasso的话很容易就把共线的部分收缩甚至删除掉了,所以不用担心。

至于完全共线性,同样不需要特别担心,正则化很容易就剔除掉了。如果碰到矩阵不可逆,用伪逆就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值