Wing Loss 论文阅读笔记

最新推荐文章于 2024-08-15 09:39:02 发布

Tianchao龙虾

最新推荐文章于 2024-08-15 09:39:02 发布

阅读量1.3k

点赞数 2

分类专栏：损失函数文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/126672392

版权

损失函数专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

论文链接： https://arxiv.org/abs/1711.06753

一、 Problem Statement

对于人脸关键点检测，作者对比了L1, L2，Smooth-L1 Loss, 发现它们在大误差下表现的很好，但是在小误差下，或者中等区域的误差下，表现较差。

在这里插入图片描述

首先我们来看一下CED曲线是怎么去理解的。CED曲线横轴代表归一化误差，纵轴代表小于归一化误差 $e$ 的landmarks占所有总landmarks的比例。这样下来，在大误差下，也就是 $0.04 - 0.05$ 范围，样本比例占比较大，但在小误差下，或者中误差下，样本比例占比较小。所以作者认为需要关注这些小误差和中误差的问题，其实我理解应该为精度的问题。

二、 Direction

作者基于上面的实验，提出新的loss function: wing loss。

三、 Method

稍微理解一下facial landmark localisation的问题定义：

给定一张图片 $\in \R^{H \times W \times 3}$ ，输出一个向量 $\in \R^{2L}$ , 形式为： $s = [x_1, x_2, ..., x_L, y_1, y_2, ..., y_L]^T$ ，其中 $L$ 是预定义的2D facial landmarks的数量， $(x, y)$ 代表图像的像素坐标。

接下来，作者先看了L1 loss:
$L 1 (x) = ∣ x ∣$

L2 loss:
$\frac{1}{2}x^2$

和 Smooth-L1 loss:

$\text{smooth}_{L1}(x) = \bigg \{ \begin{matrix} \frac{1}{2} x^2, & \text{if} |x| < 1 \\ |x| - \frac{1}{2},& \text{otherwise} \end{matrix}$

具体图像如下图所示：
在这里插入图片描述

作者认为，L1 和 L2 损失函数的梯度分别为1和 $∣ x ∣$ ，最优步长为 $∣ x ∣$ 和1。(引用[1]的理解)而在一些情况下，L1, L2 会被那些大的误差所主导。比如，L1, 对所有的点的梯度都是1，但步长是不成比例地受到较大误差的影响。而对于L2，步长都是相同的，但是梯度是较大误差所主导的。因此，在这两种情况下，很难校正相对较小的位移

优化步长：优化步长指得是要达到最优化，需要迭代的次数（步数）；L1的梯度是固定的，所以误差越大，采用L1优化就需要更多的迭代次数，也就是他说的“优化步长随着误差增大而增大”；反之，L2的梯度跟误差是成正比的。例如：你与目标距离有100公里，假设没次前进0.01（学习率）；第一次L2梯度是100，你前进100*0.01=1公里，第二次，还有99公里，梯度就是99，则一步前进99*0.01=0.99公里，以此类推；而L1的梯度固定是1，则每次前进1*0.01=0.01公里

小误差的影响可以通过loss function来增强，比如 $\ln x$ ，它的倒数为 $\frac{1}{x}$ , 随着误差接近0而增大，且其最优的步长是 $x^2$ 。当组合多个点的贡献时，梯度将由较小的误差控制，但步长由较大的误差控制。 然而，为了防止在可能错误的方向上进行大的更新步骤，重要的是不要过度补偿小的定位误差的影响。 通过对log function 添加一个positive offset。

上述的设计适合于处理相对较小的定位误差。但是，作者认为，对于facial landmarks detection来说，初始位置误差可能非常大。因此在这种情况下，损失函数应促进这些大错误中快速恢复。 因此，所设计新的损失函数，应该像L1 或者L2 那样。但是由于L2对于对离群点比较敏感，因此作者选择了L1。

$\text{wing}(x) = \bigg \{ \begin{matrix} w ln(1+ |x| / \epsilon), & \text{if} |x| < w \\ |x| - C,& \text{otherwise} \end{matrix}$

其中, 非负数 $w$ 是非线性部分 $(- w, w)$ , $\epsilon$ 限制了非线性区域的曲率， $\epsilon)$ 是个常数，用于平滑连接分段定义的线性和非线性部分。在论文中 $w = 10$ ， $\epsilon = 2$ 。ϵ的取值不能取很小的数值，因为它会使网络训练变得不稳定，并且会因为很小的误差导致梯度爆炸问题。