一般来说做线性回归或其他回归问题前会做共线性检验,如果存在比较严重的共线性问题时要用特定算法或者降维处理。而决策树和随机森林的预测能力不受多重共线性影响。
但是决策树和随机森林的数据解释性会被多重共线性影响。随机森林可以返回特征的重要性(importantce),当有多重共线性时,importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消,从而影响我们解释和理解特征。
比如说,特征A和B完全一样,我们在用随机森林时,它们的重要性应该非常接近(考虑到随机性)。如果我们在训练前删除特征B,那么特征A的重要性就会翻番。这一下子就影响了我们对特征、数据的理解。