关于A-Softmax损失函数的一些解释

最新推荐文章于 2022-08-18 21:48:10 发布

yuzhiarchy

最新推荐文章于 2022-08-18 21:48:10 发布

阅读量1k

点赞数

分类专栏：深度学习相关

本文链接：https://blog.csdn.net/yuzhiarchy/article/details/100528673

版权

深度学习相关专栏收录该内容

1 篇文章 0 订阅

订阅专栏

关于A-Softmax损失函数的一些解释

关于A-Softmax具体内容请参考论文《SphereFace: Deep Hypersphere Embedding for Face Recognition》by Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj and Le Song。关于其损失函数的设计思路，Thaurun的博客A-Softmax的总结及与L-Softmax的对比——SphereFace. 给出了一定的解释。我根据我的理解再进行一些补充。

偷懒了，就暂且"盗用"Thaurun博客的一些内容。
在这里插入图片描述

重点解释红框中的内容。
我们都知道，两个向量之间的夹角 $\theta\in[0,\pi]$ 。因此，如果使用式（1.4）(即红框上面的式子)作为损失函数，则在范围之外，即 $\theta\in[\frac{\pi}{m},\pi]$ ，可能存在部分区间使得 $cos(m\theta_{y_{i},i})>cos(\theta_{j,i}), j\neq y_{i}$ 成立，然而 $m\theta_{y_{i},i}<\theta_{j,i}, j\neq y_{i}$ 不成立的情况。如果坚持使用这个损失函数，则在最小化损失时必须加上 $\theta_{y_{i},i}\in[0,\frac{\pi}{m}]$ 的约束条件。那么原问题就变为一个带约束的优化问题，无法直接使用梯度下降法求解。
因此，作者设计了一种替代 $cos(m\theta_{y_{i},i})$ 的方案—— $\psi(\theta_{y_{i},i})=(-1)^{k}cos(m\theta_{y_{i},i})-2k$ ，其中 $\theta_{y_{i},i}\in[\frac{k\pi}{m},\frac{(k+1)\pi}{m}], k\in\{0,1,2,...,(m-1)\}$ (注：关于k的取值，这个是我的理解，论文中使用的是 $k\in[0,m-1]$ )。很明显， $\psi(\theta_{y_{i},i})$ 是一个分段函数（定义域为 $\theta_{y_{i},i}\in[0,\pi]$ ），函数值随着 $\theta_{y_{i},i}$ 单调递减。也就是说对于式(1.5)的损失函数只有在 $\theta_{y_{i},i}\in[0,\frac{\pi}{m}]$ （k=0）时，才有 $cos(m\theta_{y_{i},i})>cos(\theta_{j,i}), j\neq y_{i}$ 成立，且 $m\theta_{y_{i},i}<\theta_{j,i}, j\neq y_{i}$ 也成立。即对于以式(1.5)为目标函数的优化问题， $\theta_{y_{i},i}$ 的最优解一定在区间 $[\frac{\pi}{m},\pi]$ 中，这就符合了A-softmax的设计要求。
以上是个人的一些理解，可能有不对的地方，还请指出。