机器学习算法调优的一般步骤

最新推荐文章于 2024-06-03 11:02:58 发布

ybdesire

最新推荐文章于 2024-06-03 11:02:58 发布

阅读量1.1w

点赞数 5

分类专栏： Machine Learning 神经网络文章标签：机器学习算法正则化学习曲线

本文链接：https://blog.csdn.net/ybdesire/article/details/53001400

版权

Machine Learning 同时被 2 个专栏收录

110 篇文章 17 订阅

订阅专栏

神经网络

40 篇文章 0 订阅

订阅专栏

引言

假设我们实现了一个机器学习算法用于做分类，但在测试集上结果不好，下一步应该怎么办呢？有没有一些一般性的指导原则对我们的算法调优进行指导？

除了模型本身的一些参数调节，大部分人都知道去尝试下面一些通用的调整方法：

增加训练集
减少特征维度（从已有的特征中挑选出一部分）
增加新特征
增加多项式元素（比如将特征平方后叠加到原特征上，相当于增加了非线性的输入）
减小正则化参数的 $\lambda$ 值
增大正则化参数的 $\lambda$ 值

正如Andrew NG在机器学习课程上所说，上面提到的每一个方法，都可以扩展成一个6个月的项目；而大部分人都是凭直觉选择这些方法的，这浪费了大量的调优时间。有没有科学的指导原则来帮助我们选择这些通用的调整方法呢？

本文就以线性回归为例，详细讲解如何选择这些通用的调整方法，得出的结论也适用于其他的机器学习算法。下面先介绍正则化的作用。

正则化

这里先引入正则化的概念。

直观理解

两个模型的回归曲线如下图所示，从图中可以看出，第二个模型已经过拟合(overfitting)。

这里写图片描述

如果我们减小 $\theta _{3}, \theta _{4}$ 的值，就让第二个模型“接近”第一个模型，从而减少了第二个模型过拟合的程度。正则化要做的，就是适当减小 $\theta _{3}, \theta _{4}$ 的值。

正则化定义

正则化参数 $\lambda$ ，就是在原代价函数上，再叠加 $\lambda$ 倍的 $\theta _{1} ~ \theta _{n}$ 。

J (θ) = 1 2 m [\sum 1 m (h (x (i)) - y (i)) 2 + λ \sum 2 n θ 2 j]

$J(\theta)=\frac{1}{2m}[\sum_1^m(h(x^{(i)})-y^{(i)})^{2}+\lambda\sum_2^n\theta_j^2]$

$\lambda$ 越大，就能越大的调整模型过拟合的程度。

三种拟合的情况

欠拟合: 连训练集都不能很好的拟合，又叫High Bias
Just Right: 能很好的拟合训练集与测试集
过拟合: 能很好的拟合训练集，但不能很好的拟合测试集，又叫High Variance

从下图可以直观的看出三种拟合情况之间的区别。

这里写图片描述

调优时，首先需要判断模型处于哪种拟合情况。怎么判断呢？就是划分训练集后，绘制Learning Curve即可。

训练集划分（train & validation & test）

一般按6:2:2的比例，将数据集分为训练集，验证集，测试集。
为什么需要验证集呢？

如果没有validation dataset，则可能训练出来的模型仅仅匹配测试集，而不适用于将来的数据。验证集能提高一定的泛化能力
验证集能保证模型训练到最优（比如可以用early stop策略）

Learning Curve(学习曲线)

Learning Curve是训练集误差与验证集误差相对于训练集数目m的二维曲线图。这里和下面的m，表示有多少个训练集。比如我有1000个手写数字训练样本，m=10，表示从中取10个做训练集；m=1000，表示从中取1000个做训练集。

训练集误差：是根据训练集predic结果h，与真实结果y计算得到的。

J t r a i n = 1 2 m \sum 1 m (h (x (i)) - y (i)) 2

${J}_{train}=\frac{1}{2m}\sum_{1}^{m}{(h({x}^{(i)})-{y}^{(i)})}^{2}$

这里m是横轴，动态变化。

验证集误差：同理，是根据验证集结果计算得到的。

J c v = 1 2 m c v \sum 1 m c v (h (x (i)) - y (i)) 2

${J}_{cv}=\frac{1}{2mcv}\sum_{1}^{mcv}{(h({x}^{(i)})-{y}^{(i)})}^{2}$

mcv是训练集个数，固定值。

将 ${J}_{train}$ 与 ${J}_{cv}$ 与m的关系画到二维图中，就得到了Learning Curve。

这里写图片描述

下面介绍三种拟合情况的Learning Curve。

Learning Curve of Just Right

假设Just Right情况下的线性模型为 ${h}_{\theta}(x)={\theta}_{0}+{\theta}_{1}x+{\theta}_{2}{x}^{2}$ 。

下面是训练集个数m不同时，模型拟合训练集的情况。

这里写图片描述

可见

随着训练集数量m的增加，模型遇到的情况就越复杂，在训练集上的误差会逐渐增加，但都会保持在较小的一个范围内
随着训练集数量m的增加，模型见多识广，所以模型在验证集上的误差就逐渐减少，且越来越接近训练集误差

所以Just Right情况下的Learning Curve如下图所示

这里写图片描述

同理，画出Learning Curve后，如果满足上面的条件，就说明模型处于Just Right情况。说明模型的结构正确，接下来就不用调整结构参数，调节模型其它参数（正则化参数 $\lambda$ ）即可。

Learning Curve of High Bias

假设High Bias情况下的线性模型为 ${h}_{\theta}(x)={\theta}_{0}+{\theta}_{1}x$ 。

下面是训练集个数m不同时，模型拟合训练集的情况。

这里写图片描述

可见

随着训练集数量m的增加，模型在训练集上的误差会逐渐增加，且误差会越来越大
随着训练集数量m的增加，模型在验证集上的误差会有所下降，误差依然很大，且越来越接近训练集误差

所以High Bias情况下的Learning Curve如下图所示

这里写图片描述

同理，画出Learning Curve后，如果满足上面的条件，就说明模型处于High Bias情况。说明模型的结构不正确，接下来就应该先调整结构参数（增加新feature，增加多项式项，减小正则化参数，增加神经网络隐层神经元个数）。

Learning Curve of High Variance

假设High Variance情况下的线性模型为 ${h}_{\theta}(x)={\theta}_{0}+{\theta}_{1}x+{\theta}_{2}{x}^{2}+{\theta}_{3}{x}^{3}+{\theta}_{4}{x}^{4}+{\theta}_{5}{x}^{5}$ 。

下面是训练集个数m不同时，模型拟合训练集的情况。

这里写图片描述

可见

随着训练集数量m的增加，模型在训练集上的误差会逐渐增加（不可能拟合的天衣无缝），但由于模型的拟合能力较强，所以误差都会很小
随着训练集数量m的增加，模型在验证集上的误差会有所下降，但由于模型拟拟合能力强，把训练集上的毛刺都拟合了，所以误差依然很大，且与训练集误差有较大的差距。但验证集误差会随着m的增加而减少

所以High Variance情况下的Learning Curve如下图所示

这里写图片描述

同理，画出Learning Curve后，如果满足上面的条件，就说明模型处于High Variance情况。说明模型的结构不正确，接下来就应该先调整结构参数（减小feature数量，增加正则化参数，减小神经网络隐层神经元个数）。High Variance情况下，也可以采用增加m的方法使误差下降。