损失函数,代价函数,目标函数
-
损失函数(Loss Function)定义在单个样本上,算的是一个样本的误差。比如:
-
代价函数(Cost Function)定义在整个训练集上,是所有样本误差的平均,也就是损失函数的平均,比如:
-
目标函数(Object Function)是最终需要优化的函数。
即:经验风险+正则化项(Cost Function + Regularization)。
最小二乘法
最小二乘法(又称最小平方法)是基于均方误差的,使用最优化方法的一种数学优化技术。它由两部分组成:
- 计算所有样本误差的平均(代价函数)
- 使用最优化方法寻找数据的最佳函数匹配(抽象的)
最小二乘法是抽象的,具体的最优化方法有很多,比如正规方程法、梯度下降法、牛顿法、拟牛顿法等等
正则化项(Regularization)
模型过于复杂的时候会造成过拟合,模型会失去泛化能力,这是我们不希望的。我们希望追求一个既简单,而且在测试集上有较好泛化能力的模型。
(lamda是超参数:正则化因子,或者叫平衡因子)
正则化方法
针对线性模型来说,参数过多,参数过大会造成过拟合。对一个线性模型而言,某特征前面的参数绝对值,可以反应该特征重要程度的权重。
- L1正则化,权值向量w中各个元素的绝对值之和。(第一范数)
- L2正则化,权值向量w中各个元素的平方和。(第二范数)
- L1正则化 VS L2正则化
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,也可以防止过拟合
L2正则化可以防止模型过拟合(overfitting) - 经典面试题
为什么 L1 正则可以产生稀疏模型(很多参数=0),而 L2 正则不会出现很多参数为0的情况?
这就把 w 的解限制在黑色区域内,同时使得经验风险尽可能小,因此取交点就是最优解,从图可以看出,因为L1正则黑色区域是有棱角的,所以更容易在棱角取得交点,从而导致出现参数为0的情况