随机森林特点

这篇博客深入探讨随机森林算法的特点,包括包外估计的误差评估、特征重要性的计算方法(基尼系数和包外估计)、样本相似图的概念以及随机森林的过拟合现象。文章指出,随机森林可以通过包外误差来监测模型性能,并能有效计算特征重要性,且不容易过拟合。
摘要由CSDN通过智能技术生成

介绍

我的另一篇博客对随机森林算法有了一个简单的介绍,传送门。本文则从分析和应用的角度,尝试对随机森林算法的一些细节进行探讨,主要还是以学习为主。

随机森林的特点

  1. 包外估计
  2. 特征重要性
  3. 样本相似图(proximity plot)
    4.  随机森林的过拟合

包外估计

由于随机森林采用了bootstrap sampling对样本采样,每次采样约有36.8%样本未被采样。因此,利用这部分样本作为验证集得到的包外误差(Out-Of-Bag Error)与N折交叉验证得到的误差基本一致;因此,随机森林可以将交叉验证融入模型的训练中,一旦包外误差趋于稳定,就可以终止训练了。下图显示了在一垃圾邮件分类应用中,包外误差和测试误差的差别。图片来自《The Elements of Statistical Learning》

特征重要性

随机森林可以在构建模型时计算特征的重要性,主要有两种方法:
1. 由基尼系数计算
2. 由包外估计计算

由基尼系数计算

和CART一样,随机森林根据特征分裂节点时,可以计算其分裂前后基尼系数的变化。统计每个变量在所有树中分裂时基尼系数的变化和,也就能刻画每个变量的重要程度了;

由包外估计计算

假设包外样本矩阵为:

x11x
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值