介绍
我的另一篇博客对随机森林算法有了一个简单的介绍,传送门。本文则从分析和应用的角度,尝试对随机森林算法的一些细节进行探讨,主要还是以学习为主。
随机森林的特点
- 包外估计
- 特征重要性
- 样本相似图(proximity plot)
4. 随机森林的过拟合
包外估计
由于随机森林采用了bootstrap sampling对样本采样,每次采样约有36.8%样本未被采样。因此,利用这部分样本作为验证集得到的包外误差(Out-Of-Bag Error)与N折交叉验证得到的误差基本一致;因此,随机森林可以将交叉验证融入模型的训练中,一旦包外误差趋于稳定,就可以终止训练了。下图显示了在一垃圾邮件分类应用中,包外误差和测试误差的差别。
特征重要性
随机森林可以在构建模型时计算特征的重要性,主要有两种方法:
1. 由基尼系数计算
2. 由包外估计计算
由基尼系数计算
和CART一样,随机森林根据特征分裂节点时,可以计算其分裂前后基尼系数的变化。统计每个变量在所有树中分裂时基尼系数的变化和,也就能刻画每个变量的重要程度了;
由包外估计计算
假设包外样本矩阵为:
⎡⎣⎢⎢⎢x11⋮x