深度学习-损失、优化器

酸奶可乐

已于 2023-03-17 15:20:30 修改

阅读量622

点赞数

分类专栏：深度学习文章标签：深度学习机器学习人工智能

于 2023-03-13 13:48:48 首次发布

本文链接：https://blog.csdn.net/weixin_44229819/article/details/129489724

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

0.损失函数

0.0 回归损失函数

0.0.1 L1 Loss

L1的loss可以用函数表示为，挺好的，就是0点不可导
$L(x,y)=\frac{1}{n}\sum_{i=1}^n|y_i-f(x_i)|$

0.0.2 L2 Loss

L2的loss可以用汉书表示为，0点可导，但远处容易梯度爆炸
$L(x,y)=\frac{1}{n}\sum_{i=1}^n(y_i-f(x_i))^2$

0.0.3 Smooth L1 Loss

L1的Smooth loss可以用汉书表示为，挺好的，结合了L1、L2的优点
$L(x,y)=\frac{1}{n}\sum_{i=1}^n \begin{cases} \frac{1}{2}(y_i-f(x_i))^2\ \ ,\quad if \ |y_i-f(x_i)| \leq 1\\ |y_i-f(x_i)|-\frac{1}{2}, \quad otherwise \end{cases}$
在这里插入图片描述

0.1 分类损失

0.1.0 cross entropy

正确分类的就不计算损失，计算错误的要计算损失
N个样本，每个样本有M个类别需要预测
$\frac{1}{N}\sum_{i=1}^NL(y_i, p_i) = \frac{1}{N}\sum_{i=1}^N\sum_{j=1}^My_{ic}ln(p_{ic})$

$N$ 表示样本总数目
$M$ 表示单个样本中的类别数目
$y_{ic}$ 表示 $i$ 样本中，第 $c$ 个目标是否正确分类，正确时值为 $0$ 否则为 $1$
$p_{ic}$ 表示 $i$ 样本中，第 $c$ 个目标的预测概率, 值为 0 ~ 1

0.1.1 Focal loss

上面已经得出交叉熵损失是所有样本中损失的均值，但是如果样本中正负样本的分布不均匀

1.优化器

优化器的最终目标是最小化Loss函数，从而优化网络本身参数
它包含了 learning rate 和函数两部分
Momentum-动量法

1.1 SGD

又名随机梯度下降，前期算法没有增加动量，目前是一类动量法
优化参数的过程可以表示为如下,其中 $\alpha$ 就是学习率, $\nu$ 是动量, 参数 $\gamma$ 通常取值0.9
$\theta_t = \theta_{t-1}-\nu_t \\ \nu_t=\gamma \nu_{t-1} + \alpha \frac{\partial L(\theta)}{\partial\theta}$
代表着当前如何走与梯度有关，还与过去的累积梯度有关