机器学习调参的基本思路

本文探讨了如何通过调整随机森林参数来降低过拟合,关注模型复杂度与泛化误差的关系。重点介绍了n_estimators、max_depth、max_features的选择,以及如何通过理解偏差和方差来优化模型。
摘要由CSDN通过智能技术生成

part 1 调参的基本思路

  • 泛化误差(Genelization error):衡量模型在未知数据上的准确率的指标。
  • 当模型在未知数据(测试集或者袋外数据)上表现糟糕时,我们说模型的泛化程度不够,泛化误差大,模型的效果不好。
    在这里插入图片描述

Ⅰ.随机森林是以树模型为基础,所以随机森林也是天生复杂度高的模型。随机森林的参数,都是向着一个目标去:减少模型的复杂度,把模型往图像的左边移动,防止过拟合。当然了也不是绝对的。所以要优先判断模型现在究竟处于图像的哪一边。
1)模型太复杂或者太简单,都会让泛化误差高,我们追求的是位于中间的平衡点
2)模型太复杂就会过拟合,模型太简单就会欠拟合
3)对树模型和树的集成模型来说,树的深度越深,枝叶越多,模型越复杂
4)树模型和树的集成模型的目标,都是减少模型复杂度,把模型往图像的左边移动

n_estimators>max_depth(默认最大深度,最大复杂度),[min_sampels_leaf,min_smaple_split 默认最小限制1,2]

max_features auto~特征默认总数开平方,中间复杂度。
随机森林常常是过拟合的,所以这个很少还继续调右

criterion默认是gini看具体情况。

part 2 偏差和方差

每个点就是集成算法中的一个基评估器产生的预测值。

红色虚线代表着这些预测值的均值,

而蓝色的线代表着数据本来的面貌。

在这里插入图片描述

我们希望当偏差和方差都很低,这样模型的泛化误差就小,在未
知数据上的准确率就高。
在这里插入图片描述
Bias和Vars是此消彼长的关系,不可能同时到达最小值。
也就是Bias和Vars常常一个很大就会道中泛化误差很大。
也就是在最佳模型复杂度之前是偏差很大bias很大,之后是方差vars很大。

所以以随机森林为代表的装袋法(本身偏差bias比较高)的训练过程旨在降低方差,

即降低模型复杂度,所以随机森林参数的默认设定都是假设模型本身在泛化误差最低点的右边。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值