机器学习-损失函数,代价函数,目标函数

损失函数,代价函数,目标函数

  • 损失函数(Loss Function)定义在单个样本上,算的是一个样本的误差。比如:
    在这里插入图片描述

  • 代价函数(Cost Function)定义在整个训练集上,是所有样本误差的平均,也就是损失函数的平均,比如:
    在这里插入图片描述

  • 目标函数(Object Function)是最终需要优化的函数。
    即:经验风险+正则化项(Cost Function + Regularization)。
    在这里插入图片描述

最小二乘法

最小二乘法(又称最小平方法)是基于均方误差的,使用最优化方法的一种数学优化技术。它由两部分组成:

  • 计算所有样本误差的平均(代价函数)
  • 使用最优化方法寻找数据的最佳函数匹配(抽象的)

最小二乘法是抽象的,具体的最优化方法有很多,比如正规方程法、梯度下降法、牛顿法、拟牛顿法等等

正则化项(Regularization)

模型过于复杂的时候会造成过拟合,模型会失去泛化能力,这是我们不希望的。我们希望追求一个既简单,而且在测试集上有较好泛化能力的模型。
(lamda是超参数:正则化因子,或者叫平衡因子)
在这里插入图片描述

正则化方法

针对线性模型来说,参数过多,参数过大会造成过拟合。对一个线性模型而言,某特征前面的参数绝对值,可以反应该特征重要程度的权重。

  • L1正则化,权值向量w中各个元素的绝对值之和。(第一范数)
    在这里插入图片描述
  • L2正则化,权值向量w中各个元素的平方和。(第二范数)
    在这里插入图片描述
  • L1正则化 VS L2正则化
    L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,也可以防止过拟合
    L2正则化可以防止模型过拟合(overfitting)
  • 经典面试题
    为什么 L1 正则可以产生稀疏模型(很多参数=0),而 L2 正则不会出现很多参数为0的情况?
    在这里插入图片描述

这就把 w 的解限制在黑色区域内,同时使得经验风险尽可能小,因此取交点就是最优解,从图可以看出,因为L1正则黑色区域是有棱角的,所以更容易在棱角取得交点,从而导致出现参数为0的情况

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值