深度学习小记 - 正则化，优化器，线性回归，逻辑斯蒂回归

最新推荐文章于 2024-04-09 22:33:04 发布

WBZhang2022

最新推荐文章于 2024-04-09 22:33:04 发布

阅读量436

点赞数

文章标签：回归深度学习线性回归

本文链接：https://blog.csdn.net/weixin_44944722/article/details/125808852

版权

深度学习小记 - 正则化/优化器/线性回归/逻辑斯蒂回归

一种解释学习算法泛化性能的一种重要工具；它由偏差，方差，噪声三部分构成；
偏差度量了学习算法的期望预测与真实结果的差距；方差刻画了同一组数据在受不同情况扰动的情况下性能的变化；噪声刻画了学习问题本身的难度
偏差，方差，噪声三者的关系：训练集的错误率较小，而验证集/测试集的错误率较大的情况称为过拟合；训练集和测试集的错误率都较大，且两者相近的情况称为欠拟合;

解决模型训练过程中过拟合的问题常用的方法就是正则化，所谓的正则化以增大训练误差为代价的方式减少测试误差；在本篇博客我们重点学习参数范数惩罚的正则化方法

$J(\theta,b,X,y)=L(\theta,b,X,y)+\lambda \cdot \Omega(\theta)$ ，其中 $\Omega(\theta)$ 表示模型范数惩罚项

	$L 1$ 范数	$L 2$ 范数
损失函数	$J(\theta,b,X,y)=L(\theta,b,X,y)+\cdot \lambda \cdot\ \|\|\theta\|\|_1$	$J(\theta,b,X,y)=L(\theta,b,X,y)+\frac{1}{2}\cdot \lambda \cdot\ \|\|\theta\|\|_2$
使用说明	由于 $L 1$ 正则化最后得到的模型参数存在大量 $0$ ，使得模型变得更加稀疏	较常使用

使用 $L 1$ 与 $L 2$ 正则化是解决模型训练过拟合的问题方法之一，主要表现在添加正则化项 $\lambda$ 后，当 $\lambda$ 增大时，导致模型参数 $\theta$ 减小，或出现众多参数趋近于 $0$ ，即模型变得稀疏，降低了模型的复杂度；或导致输出结果减小，输出结果减小在经过激活函数之时，根据激活函数的性质，输出结果近似线性；以及这一区间梯度较大有效地防止梯度消失

在神经网络训练中最常见的优化器，也是大家刚入门优化器中，学习的第一个优化算法

$\theta_{t+1} \leftarrow \theta_t-\eta \cdot \frac{\partial L(\theta_t,b_t,X,y)}{\partial \theta_t}$
$b_{t+1} \leftarrow b_t -\eta \cdot \frac{\partial L(\theta_t,b_t,X,y)}{\partial b_t}$

在随机梯度下降的过程中，观察下降的轨迹我们发现，方向抖动是非常剧烈的，在统计学中为了估计序列数据，我们通常采用指数加权平均的方法，让变化的轨迹（曲线）更加地平缓；

将指数加权平均的方法引入到随机梯度下降算法，通过加权累加过去的梯度来减少抵达最小路径上的波动加速收敛 （当梯度方向一致时，动量梯度下降能加速学习）；
假设 $m_{\partial \theta}$ 表示损失函数分别对 $\theta$ 与的偏导的加权累加， $\beta$ 表示加权累加的权重；
$m_{\partial \theta_{t+1}}\leftarrow \beta \cdot m_{\partial \theta_{t}}+(1-\beta)\cdot \frac{\partial L}{\partial \theta_{t}}$
$\theta_{t+1} \leftarrow \theta_{t}-\eta \cdot m_{\partial \theta_{t+1}}$

使用一个随机梯度的平方累加和的倒数来动态调整学习率
该方法计算量大，在后期随着累加越多，优化速度慢
$s_{t+1}\leftarrow s_{t}+(\frac{\partial L}{\theta_t})^2$
$\theta_{t+1}\leftarrow \theta_t- \frac{\eta}{\sqrt{s_{t+1}}}\cdot \frac{\partial L}{\partial \theta_t}$

将指数加权平均的方法引入到Adagrad算法中；
RMSprop算法有助于减少抵达最小路径上的摆动，并允许使用一个更大的学习率，从而加快学习速度
$s_{t+1}\leftarrow \beta \cdot s_{t}+(1-\beta)\cdot(\frac{\partial L}{\theta_t})^2$
$\theta_{t+1}\leftarrow \theta_t- \frac{\eta}{\sqrt{s_{t+1}}}\cdot \frac{\partial L}{\partial \theta_t}$

将SGDM和RMSProp算法进行中和
$s_{t+1}\leftarrow \beta_1 \cdot s_{t}+(1-\beta_1)\cdot \frac{\partial L}{\theta_t}\quad r_{t+1}\leftarrow \beta_2 \cdot r_{t}+(1-\beta_2)\cdot(\frac{\partial L}{\theta_t})^2$
$\widehat{s_{t+1}}=\frac{s_{t+1}}{1-\beta_1}\quad \widehat{r_{t+1}}=\frac{r_{t+1}}{1-\beta_2}$
$\theta_{t+1}\leftarrow \theta_t- \eta \cdot \frac{\widehat{s_{t+1}}}{\sqrt{\widehat{r_{t+1}}}}\cdot \frac{\partial L}{\partial \theta_t}$

关注