第一章 线性回归

损失函数(Loss Function):度量单样本预测的错误程度,损失函数值越小,模型就越好。
代价函数(Cost Function):度量全部样本集的平均误差。
目标函数(Object Function):代价函数和正则化函数,最终要优化的函数。

某种程度下,损失函数和代价函数是等价的,都是用来衡量模型拟合程度,即衡量模型的预测值与实际值之间的差距。常用的损失函数包括:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等;常用的代价函数包括均方误差、均方根误差、平均绝对误差等。

线性回归模型的损失函数采用的是均方误差。证明可考虑假设随机误差独立同分布,且服从正态分布,从对对数似然函数求极值可得出结论。

梯度的是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大。

因此如果想要求得目标函数的最大值(最小值),就需要沿着梯度方向(的反方向)进行迭代,当最后函数收敛时,即可结束迭代。该过程就称为梯度上升(下降)法,而迭代过程的参数即为学习率。

梯度下降法的缺点:若目标函数为非凸函数,则极有可能达到鞍点,而非全局最优解。

随机梯度下降法即使任取样本点进行梯度下降迭代,而为了加快迭代,可以考虑增加迭代速度变量的随机动量梯度下降。

若要使得损失函数最小,可以使用最小二乘估计方法,对损失函数求偏导,并使其为0,可以得到正则方程。该方程有唯一解的充要条件是矩阵X的秩为满秩。

若损失函数具有二阶连续偏导,第k次迭代值为Xk,则函数在Xk处的泰勒展开式中,一阶项系数为函数在Xk处的梯度,二阶项系数为函数在Xk处的黑塞矩阵。而若要损失函数达到最小,则必要条件是,一阶导数为0,即梯度为0,同时当二阶项系数,即黑塞矩阵为正定阵时,函数达到最小值。

而牛顿法就是利用梯度为0的条件,在第K次迭代中,求目标函数的最小值,作为第K+1次的迭代值。

而由于计算黑塞矩阵非常复杂,因此考虑利用一个正定阵来近似黑塞矩阵的方法,就是拟牛顿法。常用的拟牛顿法的算法包括DFP,BFGS等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值