part 1 调参的基本思路
- 泛化误差(Genelization error):衡量模型在未知数据上的准确率的指标。
- 当模型在未知数据(测试集或者袋外数据)上表现糟糕时,我们说模型的泛化程度不够,泛化误差大,模型的效果不好。
Ⅰ.随机森林是以树模型为基础,所以随机森林也是天生复杂度高的模型。随机森林的参数,都是向着一个目标去:减少模型的复杂度,把模型往图像的左边移动,防止过拟合。当然了也不是绝对的。所以要优先判断模型现在究竟处于图像的哪一边。
1)模型太复杂或者太简单,都会让泛化误差高,我们追求的是位于中间的平衡点
2)模型太复杂就会过拟合,模型太简单就会欠拟合
3)对树模型和树的集成模型来说,树的深度越深,枝叶越多,模型越复杂
4)树模型和树的集成模型的目标,都是减少模型复杂度,把模型往图像的左边移动
n_estimators>max_depth(默认最大深度,最大复杂度),[min_sampels_leaf,min_smaple_split 默认最小限制1,2]
max_features auto~特征默认总数开平方,中间复杂度。
随机森林常常是过拟合的,所以这个很少还继续调右
criterion默认是gini看具体情况。
part 2 偏差和方差
每个点就是集成算法中的一个基评估器产生的预测值。
红色虚线代表着这些预测值的均值,
而蓝色的线代表着数据本来的面貌。
我们希望当偏差和方差都很低,这样模型的泛化误差就小,在未
知数据上的准确率就高。
Bias和Vars是此消彼长的关系,不可能同时到达最小值。
也就是Bias和Vars常常一个很大就会道中泛化误差很大。
也就是在最佳模型复杂度之前是偏差很大bias很大,之后是方差vars很大。
所以以随机森林为代表的装袋法(本身偏差bias比较高)的训练过程旨在降低方差,
即降低模型复杂度,所以随机森林参数的默认设定都是假设模型本身在泛化误差最低点的右边。