损失函数1-CSDN博客

本文链接：https://blog.csdn.net/zzk0126/article/details/132646581

###交叉熵

熵：物理学上表示一个热力学系统的无序程度
信息熵：
- 信息的量化度量，由香农提出
- 对数函数表示对不确定性的测量
- 熵越高，表示能传输的信息越多，熵越少，表示传输的信息越少。熵 =>信息量
- 原理：每个信息都存在冗余，冗余的大小与符号的出现概率或者不确定性有关。出现概率大，则不确定性小，可用对数函数表征。
为什么对数函数？
- 不确定性必须是出现概率的单调递减函数
- 离散的独立事件，其总的不确定性等于各自不确定性之和
- 不确定性： $f=log(\frac1p)=-log(p)$
信息熵：
- 单个符号的不确定性的统计平均
- 公式： $-\sum_{i=0}^np_ilog(p_i)$
分类交叉熵：
- 所有样本在每个类别的信息熵的总和
- 公式： $l(f,y)=-\sum_i^n\sum_j^my_{ij}logf(x_{ij})$
- 参数 n：样本数量
- 参数 m：类别数量
- 参数 $y_{ij}$ ：第i个样本属于分类j的标签，它是0或者1
- 参数 $f(x_{ij})$ ：样本i预测为j分类的概率
特点：
- 主要用于学习数据的概率分布
- 像MSE等是惩罚预测错误的，交叉熵对于高可信度预测错误的会有更大的惩罚
- 负对数损失：不会根据预测的可信度进行惩罚；交叉熵：也会惩罚预测错误且可信度很高的，或者预测正确且可信度很低的
pytorch：torch.nn.CrossEntropyLoss

如果上面的 $f(x_{ij})$ 是softmax概率的形式（指数概率），此时就是softmax with cross-entropy loss，简称softmax loss
softmax loss是交叉熵的一个特例
分类分割任务
不平衡样本：weighted softmax loss， focal loss
蒸馏学习的soft softmax loss

主要用于SVM，解决间距最大化问题
公式： $l(f(x),y)=max(0,1-yf(x))=\left\{\begin{array}{ll}0&y_i=f(x_i)\\1&y_i\neq f(x_i)\end{array}\right.$

用于衡量两个输入是否相似或者不相似
公式： $l_n=\left\{\begin{array}{ll}x_n&y_n=1\\max\{0,margin-x_n\}&y_n=-1\end{array}\right.$
margin: default = 1
pytorch：torch.nn.HingeEmbeddingLoss

对于两个输入x1，x2，根据标签计算其cos相似性的loss
公式： $l(f(x),y)=\left\{\begin{array}{ll}1-cos(x1,x2)&y=1\\max\{0,cos(x1,x2)-margin\}&y=-1\end{array}\right.$
相似性： $similarity=cos(\theta)=\frac{A*B}{|A||B|}$
默认时marign=0
当y=1时，loss=1-cos(x1,x2)
当y=-1时，loss=max{0, cos(x1,x2)}。如果cos(x1,x2)>0，loss=cos(x1,x2)；如果cos(x1,x2)<0，loss=0.
pytorch：torch.nn.CosineEmbeddingLoss

L1/L2 局限：
- L1：梯度不平滑
- L2：容易梯度爆炸
- 新的综合两者有点的loss
公式： $smooth_{L1}(x,f(x))=\left\{\begin{array}{ll}0.5(x-f(x))^2&,\mid x-f(x)\mid<1\\|x-f(x)\mid-0.5&,otherwise\end{array}\right.$
当x-f(x)较小时，等价于L2 loss，保持平滑
当x-f(x)较大时，等价于L1 loss，可以限制数值的大小
与MSE相比，对于outliner更不敏感，当真实值和预测值差异较大值，此时类似于L1 loss，不像MSE loss的平方，所以可避免梯度爆炸
pytorch：torch.nn.SmoothL1Loss

对于两个输入x1，x2，以及一个标签y(取值1和-1的tensor)，评估x1和x2的排序
当y=1，x1的排序高于x2
当y=-1，x1的排序低于x2
公式： $l oss (x, y) = ma x (0, - y * (x 1 - x 2) + ma r g in)$
如果x1、x2的排序和数据是吻合的，那么此时y * (x1-x2)是大于0的，-y * (x1-x2) + margin是小于0的，整个loss取值为0.
如果x1、x2的排序和数据是不吻合的，那么此时y * (x1-x2)是小于0的，-y * (x1-x2) + margin是大于0的，整个loss取值为大于0的一个值，相当于对这种错误的预测有一个惩罚.
pytorch：torch.nn.MarginRankingLoss