机器学习调参的基本思路

Aksinia

已于 2022-04-30 15:16:16 修改

阅读量629

点赞数

分类专栏：机器学习技法文章标签：深度学习神经网络机器学习

于 2021-10-16 14:42:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51871375/article/details/120797581

版权

机器学习技法专栏收录该内容

11 篇文章

订阅专栏

本文探讨了如何通过调整随机森林参数来降低过拟合，关注模型复杂度与泛化误差的关系。重点介绍了n_estimators、max_depth、max_features的选择，以及如何通过理解偏差和方差来优化模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

part 1 调参的基本思路

泛化误差（Genelization error）:衡量模型在未知数据上的准确率的指标。
当模型在未知数据（测试集或者袋外数据）上表现糟糕时，我们说模型的泛化程度不够，泛化误差大，模型的效果不好。

Ⅰ.随机森林是以树模型为基础，所以随机森林也是天生复杂度高的模型。随机森林的参数，都是向着一个目标去：减少模型的复杂度，把模型往图像的左边移动，防止过拟合。当然了也不是绝对的。所以要优先判断模型现在究竟处于图像的哪一边。
1）模型太复杂或者太简单，都会让泛化误差高，我们追求的是位于中间的平衡点
2）模型太复杂就会过拟合，模型太简单就会欠拟合
3）对树模型和树的集成模型来说，树的深度越深，枝叶越多，模型越复杂
4）树模型和树的集成模型的目标，都是减少模型复杂度，把模型往图像的左边移动

n_estimators>max_depth(默认最大深度,最大复杂度),[min_sampels_leaf,min_smaple_split 默认最小限制1,2]

max_features auto~特征默认总数开平方，中间复杂度。
随机森林常常是过拟合的，所以这个很少还继续调右

criterion默认是gini看具体情况。

part 2 偏差和方差

每个点就是集成算法中的一个基评估器产生的预测值。

红色虚线代表着这些预测值的均值，

而蓝色的线代表着数据本来的面貌。

在这里插入图片描述

我们希望当偏差和方差都很低，这样模型的泛化误差就小，在未
知数据上的准确率就高。
在这里插入图片描述
Bias和Vars是此消彼长的关系，不可能同时到达最小值。
也就是Bias和Vars常常一个很大就会道中泛化误差很大。
也就是在最佳模型复杂度之前是偏差很大bias很大，之后是方差vars很大。

所以以随机森林为代表的装袋法(本身偏差bias比较高)的训练过程旨在降低方差，

即降低模型复杂度，所以随机森林参数的默认设定都是假设模型本身在泛化误差最低点的右边。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。