【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

芋圆芋圆大芋圆

已于 2022-10-30 20:41:07 修改

阅读量2.4k

点赞数

文章标签： von Mises-Fisher分布深度学习人脸识别混合模型损失函数

于 2022-10-23 23:05:59 首次发布

本文链接：https://blog.csdn.net/yyybeautiful/article/details/127483028

版权

【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

1 介绍

人脸识别，可以归结为单位长度特征向量的有监督分类或无监督聚类，其距离可以简单地通过角度计算，即余弦距离
[45、10、47、51]：对最终特征向量进行统一规范化，在简单的softmax损失之外，提供额外或增强的监督信号，以进一步实现区分学习，即压缩类内实例，同时排斥类间实例，从而提高了最终的识别精度。——理论上并不清楚
单位长度归一化特征向量是方向特征，它只保留数据特征的方向作为鉴别信息，而忽略其大小。在这种情况下，简单的角度测量，例如余弦距离，可以用作两个数据点的不相似性测量，并提供非常直观的相似性几何解释。
统计混合模型（MM）是执行概率聚类的常用方法，该聚类假设了一个生成模型，即每个观测都是概率分布有限混合的样本。我们采用MM的理论概念来表示深层特征。
本文将深度神经网络（例如基于CNN的神经网络）提供的（深度）特征建模为von Mises Fisher分布的混合，也称为vMF混合模型（vMFMM）。von Mises Fisher（vMF）是一种基本概率分布，已成功地用于无监督分类里。在将此vMFMM与深度神经网络相结合时，我们导出了一个新的损失函数，即vMF混合损失（vMFML），它能够实现区分学习。

特征表示模型

基于具有方向分布的统计有限混合模型

方向特征表示学习方法vMF-FL

将理论模型与CNN模型相结合
新的损失函数vMFML：其公式与反向传播方法表明，它可以很容易地与任何CNN模型集成。此外，vMFML能够解释不同的损失函数和归一化方法。vMFML不仅解释了参数和特征之间的关系，而且提高了CNN学习任务的效率（更快的收敛）和性能（更好的准确性）。它可以在方向特征假设下用于各种分类任务。

FR任务中好

vMF发展

[15] [2] [12]：无监督分类（2017年）

2 相关工作

混合模型MM

[28]：基于神经网络（NN）的方法对混合模型（MM）的研究相对较少

[29]：使用高斯MM（GMM）将深度NN建模为变压器的混合物

[42]：使用了对数线性模型与GMM和NN的概念

[43]：通过他们提出的GMM层学习了区别特征

本文不同之处：

使用方向（单位归一化）特征
使用vMF[25]分布，它更适合于方向特征
特征表示模型基于基于生成模型的[4]概念

具有方向分布的MM

仍然没有被探索来学习辨别特征
本文通过使用vMF分布[25,2]对任务进行建模并将其与CNN模型相结合来探索这一点

损失函数

人脸识别FR

通常，FR方法使用softmax损失来训练CNN作为身份分类器。
[47]：中心损失来增强特征识别
vMF FL仅通过身份分类学习特征，并且只需要类别标签。

3 方法

1. 统计特征表示模型（SFR）

特征是从概率分布的有限统计混合中发布的，然后，使用变换器将这些特征转换为2D图像空间，具有M类的SFR模型：

$\operatorname{SFR}\left(\mathbf{x}_i \mid \Theta_M\right)=\sum_{j=1}^M \pi_j V_d\left(\mathbf{x}_i \mid \mu_j, \kappa_j\right)$

$\pi_j ：第j类的混合比例$

$\mu_j ：第j类的平均方向$

$\kappa_j ：第j类的浓度值$

$\Theta_M：一组模型参数$

$V_d(.)：vMF分布的密度函数$

每个类j具有相同的出现概率π，并且分布有相同的浓度值κ——这个假设对于区分学习是重要的，以确保监督分类器不偏向于任何特定类别。

2. vMF特征学习（vMF FL）方法

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWwxdgPi-1666537383903)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20221023001449843.png)]$

（1）使用CNN模型将输入2D对象图像映射到vMF特征，我们将其用作变换器

（2）基于SFR模型的区分视图将特征分类到各个类别。

它通过整合SFR和CNN模型来制定优化问题，并通过最小化分类损失来学习参数。

3. vMF混合模型（vMFMM）

$V_d(\mathbf{x} \mid \mu, \kappa)=C_d(\kappa) \exp \left(\kappa \mu^T \mathbf{x}\right)$

$C_d(\kappa)=\frac{\kappa^{d / 2-1}}{(2 \pi)^{d / 2} I_{d / 2-1}(\kappa)}$

$\mu ：均值方向，\kappa ：围绕方向\mu的浓度参数$

$I_{\rho}(.) ：第一类修正贝塞尔函数， I_{d}(k)=\sum_{k \geq 0} \frac{1}{\Gamma(d+k+1) k !}\left(\frac{k}{2}\right)^{2 k+d}$

$\mu=\frac{\sum{ }_{i} x_{i}}{\left\|\sum_{i} x_{i}\right\|,} \quad k=A_{d}^{-1}(\bar{R})， \Gamma(\cdot)伽马函数$

$A_{d}(k)=\frac{-c_{d}^{\prime}(k)}{c_{d}(k)}=\frac{I_{d / 2}(k)}{I_{d / 2-1}(k)}=\frac{\left\|\sum_{i} x_{i}\right\|}{n}=\bar{R}$

$\mathbf{X}=\left\{\mathbf{x}_{i}\right\}_{i=1, \ldots, N} 一组样本， N是样本总数，有M类特征$

$对于每个样本\mathbf{x}_{i} ：g_{v}\left(\mathbf{x}_{i} \mid \Theta_{M}\right)=\sum_{j=1}^{M} \pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right) (前面的SFR)$

$\Theta_{M}=\left\{\left(\pi_{1}, \mu_{1}, \kappa_{1}\right), \ldots,\left(\pi_{M}, \mu_{M}, \kappa_{M}\right)\right.：参数集$

$\pi_j ：第j类的混合比例$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-shtQQ1tL-1666537383904)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20221023103547692.png)]$

期望最大化EM已用于通过最小化负对数似然值来估计vMFMM参数

E步骤：

$后验概率：p_{i j}=\frac{\pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right)}{\sum_{l=1}^{M} \pi_{l} V_{d}\left(\mathbf{x}_{i} \mid \mu_{l}, \kappa_{l}\right)}$

M步骤：

$参数更新：\pi_{j}=\frac{1}{N} \sum_{i=1}^{N} p_{i j}，\mu_{j}=\frac{\sum_{i=1}^{N} p_{i j} \mathbf{x}_{i}}{\sum_{i=1}^{N} p_{i j}}，\bar{r}=\frac{\left\|\mu_{j}\right\|}{N \pi_{j}}，\mu_{j}=\frac{\mu_{j}}{\left\|\mu_{j}\right\|}，\kappa_{j}=\frac{\bar{r} d-\bar{r}^{3}}{1-\bar{r}^{2}}$

4. vMFML损失函数和优化

vMF FL方法旨在通过最小化分类损失来学习区分特征
将目标设置为最小化由vMFMM引导的交叉熵
将基于SFR模型的等特权假设的后验概率重写为

$p_{i j}=\frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}$

损失函数

$\mathcal{L}_{v M F M L}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right)=-\sum_{i=1}^{N} \log \frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}=-\sum_{i=1}^{N} \log \frac{e^{z_{i j}}}{\sum_{l=1}^{M} e^{z_{i l}}}\left[z_{j}=\kappa \mu_{j}^{T} \mathbf{x}_{i}\right]$

$y_{i j}：真实类概率，若为1，只知道真正的类标签$

Softmax函数

$\mathcal{L}_{\text {Softmax }}=-\sum_{i=1}^{N} \log \frac{\exp \left(\mathbf{w}_{j}^{T} \mathbf{f}_{i}+b_{j}\right)}{\sum_{l=1}^{M} \exp \left(\mathbf{w}_{l}^{T} \mathbf{f}_{i}+b_{l}\right)}$

$\mathbf{f}_{i}：第i个图像特征，\mathbf{w}_{j}:第j类的权重，\mathbf{b}_{j}:第j类的偏差$

两损失函数差异：

vMFML使用单位规范化特征（规范化特征向量）

$\mathbf{x}=\frac{\mathbf{f}}{\|\mathbf{f}\|}$

平均参数与softmax权重的关系如下（规范化权重）

$\mu=\frac{\mathbf{w}}{\|\mathbf{w}\|}$

没有偏差b
它有一个额外的参数κ（乘法标量项替换加性偏差项）

计算vMFML的梯度

$\begin{array}{c} \frac{\partial z_{j}}{\partial \kappa}=\mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial z_{j}}{\partial \mu_{j d}}=\kappa x_{d} ; \quad \frac{\partial z_{j}}{\partial x_{d}}=\kappa \mu_{j d} \\ \frac{\partial x_{d}}{\partial f_{d}}=\left\{\begin{array}{l} \frac{\partial x_{d}}{\partial f_{d}}=\frac{\|\mathbf{f}\|^{2}-f_{d}^{2}}{\|\mathbf{f}\|^{3}}=\frac{1-x_{d}^{2}}{\|\boldsymbol{f}\|} \\ \frac{\partial x_{r}}{\partial f_{d}}=\frac{-f_{d} f_{r}}{\|\mathbf{f}\|^{3}}=\frac{-x_{d} x_{r}}{\|\mathbf{f}\|} \end{array} \quad \frac{\partial \mu_{d}}{\partial w_{d}}=\left\{\begin{array}{l} \frac{\partial \mu_{d}}{\partial w_{d}}=\frac{\|\mathbf{w}\|^{2}-w_{d}^{2}}{\|\mathbf{w}\|^{3}}=\frac{1-\mu_{d}^{2}}{\|\mathbf{w}\|} \\ \frac{\partial \mu_{r}}{\partial w_{d}}=\frac{-w_{d} w_{r}}{\|\mathbf{w}\|^{3}}=\frac{-\mu_{d} \mu_{r}}{\|\mathbf{w}\|} \end{array}\right.\right. \end{array}$

$\begin{array}{c} \frac{\partial \mathcal{L}}{\partial \kappa}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial \mathcal{L}}{\partial \mu_{j d}}=\left(p_{j}-y_{j}\right) \kappa x_{d} \\ \frac{\partial \mathcal{L}}{\partial x_{d}}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \kappa \mu_{j d} ; \quad \frac{\partial \mathcal{L}}{\partial f_{d}}=\frac{1}{\|\mathbf{f}\|}\left(\frac{\partial \mathcal{L}}{\partial x_{d}}-x_{d} \sum_{r} \frac{\partial \mathcal{L}}{\partial x_{r}} x_{r}\right) \end{array}$

5.解释和讨论

平均值（µ）：提供了该类的预期表示（例如，平均面部图像）
浓度（κ）：（独立计算）表示该类样本内的变化
更高的κ值将使特征更加集中在µ周围，以最小化类内变化（减少样本和平均值的角距离）并最大化类间距离

6. 验证

[47]：CNN模型，27卷积，4个池，1个全连接层FC组成。来自FC层的512维输出然后被单位归一化，我们将其视为输入2D图像的期望方向特征表示

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RjCeEElc-1666537383904)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20221023132825442.png)]$