【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification
1 介绍
- 人脸识别,可以归结为单位长度特征向量的有监督分类或无监督聚类,其距离可以简单地通过角度计算,即余弦距离
- [45、10、47、51]:对最终特征向量进行统一规范化,在简单的softmax损失之外,提供额外或增强的监督信号,以进一步实现区分学习,即压缩类内实例,同时排斥类间实例,从而提高了最终的识别精度。——理论上并不清楚
- 单位长度归一化特征向量是方向特征,它只保留数据特征的方向作为鉴别信息,而忽略其大小。在这种情况下,简单的角度测量,例如余弦距离,可以用作两个数据点的不相似性测量,并提供非常直观的相似性几何解释。
- 统计混合模型(MM)是执行概率聚类的常用方法,该聚类假设了一个生成模型,即每个观测都是概率分布有限混合的样本。我们采用MM的理论概念来表示深层特征。
- 本文将深度神经网络(例如基于CNN的神经网络)提供的(深度)特征建模为von Mises Fisher分布的混合,也称为vMF混合模型(vMFMM)。von Mises Fisher(vMF)是一种基本概率分布,已成功地用于无监督分类里。在将此vMFMM与深度神经网络相结合时,我们导出了一个新的损失函数,即vMF混合损失(vMFML),它能够实现区分学习。
- 特征表示模型
- 基于具有方向分布的统计有限混合模型
- 方向特征表示学习方法vMF-FL
- 将理论模型与CNN模型相结合
- 新的损失函数vMFML:其公式与反向传播方法表明,它可以很容易地与任何CNN模型集成。此外,vMFML能够解释不同的损失函数和归一化方法。vMFML不仅解释了参数和特征之间的关系,而且提高了CNN学习任务的效率(更快的收敛)和性能(更好的准确性)。它可以在方向特征假设下用于各种分类任务。
- FR任务中好
vMF发展
- [15] [2] [12]:无监督分类(2017年)
2 相关工作
混合模型MM
[28]:基于神经网络(NN)的方法对混合模型(MM)的研究相对较少
[29]:使用高斯MM(GMM)将深度NN建模为变压器的混合物
[42]:使用了对数线性模型与GMM和NN的概念
[43]:通过他们提出的GMM层学习了区别特征
本文不同之处:
- 使用方向(单位归一化)特征
- 使用vMF[25]分布,它更适合于方向特征
- 特征表示模型基于基于生成模型的[4]概念
具有方向分布的MM
- 仍然没有被探索来学习辨别特征
- 本文通过使用vMF分布[25,2]对任务进行建模并将其与CNN模型相结合来探索这一点
损失函数
人脸识别FR
- 通常,FR方法使用softmax损失来训练CNN作为身份分类器。
- [47]:中心损失来增强特征识别
- vMF FL仅通过身份分类学习特征,并且只需要类别标签。
3 方法
1. 统计特征表示模型(SFR)
特征是从概率分布的有限统计混合中发布的,然后,使用变换器将这些特征转换为2D图像空间,具有M类的SFR模型:
SFR ( x i ∣ Θ M ) = ∑ j = 1 M π j V d ( x i ∣ μ j , κ j ) \operatorname{SFR}\left(\mathbf{x}_i \mid \Theta_M\right)=\sum_{j=1}^M \pi_j V_d\left(\mathbf{x}_i \mid \mu_j, \kappa_j\right) SFR(xi∣ΘM)=j=1∑MπjVd(xi∣μj,κj)
π j :第 j 类的混合比例 \pi_j :第j类的混合比例 πj:第j类的混合比例
μ j :第 j 类的平均方向 \mu_j :第j类的平均方向 μj:第j类的平均方向
κ j :第 j 类的浓度值 \kappa_j :第j类的浓度值 κj:第j类的浓度值
Θ M :一组模型参数 \Theta_M:一组模型参数 ΘM:一组模型参数
V d ( . ) : v M F 分布的密度函数 V_d(.):vMF分布的密度函数 Vd(.):vMF分布的密度函数
- 每个类j具有相同的出现概率π,并且分布有相同的浓度值κ——这个假设对于区分学习是重要的,以确保监督分类器不偏向于任何特定类别。
2. vMF特征学习(vMF FL)方法
(1)使用CNN模型将输入2D对象图像映射到vMF特征,我们将其用作变换器
(2)基于SFR模型的区分视图将特征分类到各个类别。
- 它通过整合SFR和CNN模型来制定优化问题,并通过最小化分类损失来学习参数。
3. vMF混合模型(vMFMM)
V d ( x ∣ μ , κ ) = C d ( κ ) exp ( κ μ T x ) V_d(\mathbf{x} \mid \mu, \kappa)=C_d(\kappa) \exp \left(\kappa \mu^T \mathbf{x}\right) Vd(x∣μ,κ)=Cd(κ)exp(κμTx)
归一化常数: C d ( κ ) = κ d / 2 − 1 ( 2 π ) d / 2 I d / 2 − 1 ( κ ) 归一化常数 : C_d(\kappa)=\frac{\kappa^{d / 2-1}}{(2 \pi)^{d / 2} I_{d / 2-1}(\kappa)} 归一化常数:Cd(κ)=(2π)d/2Id/2−1(κ)κd/2−1
μ :均值方向, κ :围绕方向 μ 的浓度参数 \mu : 均值方向,\kappa :围绕方向\mu的浓度参数 μ:均值方向,κ:围绕方向μ的浓度参数
I ρ ( . ) :第一类修正贝塞尔函数, I d ( k ) = ∑ k ≥ 0 1 Γ ( d + k + 1 ) k ! ( k 2 ) 2 k + d I_{\rho}(.) :第一类修正贝塞尔函数, I_{d}(k)=\sum_{k \geq 0} \frac{1}{\Gamma(d+k+1) k !}\left(\frac{k}{2}\right)^{2 k+d} Iρ(.):第一类修正贝塞尔函数,Id(k)=k≥0∑Γ(d+k+1)k!1(2k)2k+d
μ = ∑ i x i ∥ ∑ i x i ∥ , k = A d − 1 ( R ˉ ) , Γ ( ⋅ ) 伽马函数 \mu=\frac{\sum{ }_{i} x_{i}}{\left\|\sum_{i} x_{i}\right\|,} \quad k=A_{d}^{-1}(\bar{R}), \Gamma(\cdot)伽马函数 μ=∥∑ixi∥,∑ixik=Ad−1(Rˉ),Γ(⋅)伽马函数
A d ( k ) = − c d ′ ( k ) c d ( k ) = I d / 2 ( k ) I d / 2 − 1 ( k ) = ∥ ∑ i x i ∥ n = R ˉ A_{d}(k)=\frac{-c_{d}^{\prime}(k)}{c_{d}(k)}=\frac{I_{d / 2}(k)}{I_{d / 2-1}(k)}=\frac{\left\|\sum_{i} x_{i}\right\|}{n}=\bar{R} Ad(k)=cd(k)−cd′(k)=Id/2−1(k)Id/2(k)=n∥∑ixi∥=Rˉ
X = { x i } i = 1 , … , N 一组样本, N 是样本总数,有 M 类特征 \mathbf{X}=\left\{\mathbf{x}_{i}\right\}_{i=1, \ldots, N} 一组样本, N是样本总数,有M类特征 X={xi}i=1,…,N一组样本,N是样本总数,有M类特征
对于每个样本 x i : g v ( x i ∣ Θ M ) = ∑ j = 1 M π j V d ( x i ∣ μ j , κ j ) ( 前面的 S F R ) 对于每个样本\mathbf{x}_{i} :g_{v}\left(\mathbf{x}_{i} \mid \Theta_{M}\right)=\sum_{j=1}^{M} \pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right) (前面的SFR) 对于每个样本xi:gv(xi∣ΘM)=j=1∑MπjVd(xi∣μj,κj)(前面的SFR)
Θ M = { ( π 1 , μ 1 , κ 1 ) , … , ( π M , μ M , κ M ) :参数集 \Theta_{M}=\left\{\left(\pi_{1}, \mu_{1}, \kappa_{1}\right), \ldots,\left(\pi_{M}, \mu_{M}, \kappa_{M}\right)\right.:参数集 ΘM={(π1,μ1,κ1),…,(πM,μM,κM):参数集
π j :第 j 类的混合比例 \pi_j :第j类的混合比例 πj:第j类的混合比例
期望最大化EM已用于通过最小化负对数似然值来估计vMFMM参数
- E步骤 :
后验概率: p i j = π j V d ( x i ∣ μ j , κ j ) ∑ l = 1 M π l V d ( x i ∣ μ l , κ l ) 后验概率:p_{i j}=\frac{\pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right)}{\sum_{l=1}^{M} \pi_{l} V_{d}\left(\mathbf{x}_{i} \mid \mu_{l}, \kappa_{l}\right)} 后验概率:pij=∑l=1MπlVd(xi∣μl,κl)πjVd(xi∣μj,κj)
- M步骤:
参数更新: π j = 1 N ∑ i = 1 N p i j , μ j = ∑ i = 1 N p i j x i ∑ i = 1 N p i j , r ˉ = ∥ μ j ∥ N π j , μ j = μ j ∥ μ j ∥ , κ j = r ˉ d − r ˉ 3 1 − r ˉ 2 参数更新:\pi_{j}=\frac{1}{N} \sum_{i=1}^{N} p_{i j},\mu_{j}=\frac{\sum_{i=1}^{N} p_{i j} \mathbf{x}_{i}}{\sum_{i=1}^{N} p_{i j}},\bar{r}=\frac{\left\|\mu_{j}\right\|}{N \pi_{j}},\mu_{j}=\frac{\mu_{j}}{\left\|\mu_{j}\right\|},\kappa_{j}=\frac{\bar{r} d-\bar{r}^{3}}{1-\bar{r}^{2}} 参数更新:πj=N1i=1∑Npij,μj=∑i=1Npij∑i=1Npijxi,rˉ=Nπj∥μj∥,μj=∥μj∥μj,κj=1−rˉ2rˉd−rˉ3
4. vMFML损失函数和优化
- vMF FL方法旨在通过最小化分类损失来学习区分特征
- 将目标设置为最小化由vMFMM引导的交叉熵
- 将基于SFR模型的等特权假设的后验概率重写为
p i j = exp ( κ μ j T x i ) ∑ l = 1 M exp ( κ μ l T x i ) p_{i j}=\frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)} pij=∑l=1Mexp(κμlTxi)exp(κμjTxi)
- 损失函数
L v M F M L = − ∑ i = 1 N ∑ j = 1 M y i j log ( p i j ) = − ∑ i = 1 N log exp ( κ μ j T x i ) ∑ l = 1 M exp ( κ μ l T x i ) = − ∑ i = 1 N log e z i j ∑ l = 1 M e z i l [ z j = κ μ j T x i ] \mathcal{L}_{v M F M L}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right)=-\sum_{i=1}^{N} \log \frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}=-\sum_{i=1}^{N} \log \frac{e^{z_{i j}}}{\sum_{l=1}^{M} e^{z_{i l}}}\left[z_{j}=\kappa \mu_{j}^{T} \mathbf{x}_{i}\right] LvMFML=−i=1∑Nj=1∑Myijlog(pij)=−i=1∑Nlog∑l=1Mexp(κμlTxi)exp(κμjTxi)=−i=1∑Nlog∑l=1Mezilezij[zj=κμjTxi]
y i j :真实类概率,若为 1 ,只知道真正的类标签 y_{i j}:真实类概率,若为1,只知道真正的类标签 yij:真实类概率,若为1,只知道真正的类标签
- Softmax函数
L Softmax = − ∑ i = 1 N log exp ( w j T f i + b j ) ∑ l = 1 M exp ( w l T f i + b l ) \mathcal{L}_{\text {Softmax }}=-\sum_{i=1}^{N} \log \frac{\exp \left(\mathbf{w}_{j}^{T} \mathbf{f}_{i}+b_{j}\right)}{\sum_{l=1}^{M} \exp \left(\mathbf{w}_{l}^{T} \mathbf{f}_{i}+b_{l}\right)} LSoftmax =−i=1∑Nlog∑l=1Mexp(wlTfi+bl)exp(wjTfi+bj)
f i :第 i 个图像特征, w j : 第 j 类的权重, b j : 第 j 类的偏差 \mathbf{f}_{i}:第i个图像特征,\mathbf{w}_{j}:第j类的权重,\mathbf{b}_{j}:第j类的偏差 fi:第i个图像特征,wj:第j类的权重,bj:第j类的偏差
- 两损失函数差异:
- vMFML使用单位规范化特征(规范化特征向量)
x = f ∥ f ∥ \mathbf{x}=\frac{\mathbf{f}}{\|\mathbf{f}\|} x=∥f∥f
- 平均参数与softmax权重的关系如下(规范化权重)
μ = w ∥ w ∥ \mu=\frac{\mathbf{w}}{\|\mathbf{w}\|} μ=∥w∥w
- 没有偏差b
- 它有一个额外的参数κ(乘法标量项替换加性偏差项)
- 计算vMFML的梯度
∂ z j ∂ κ = μ j T x ; ∂ z j ∂ μ j d = κ x d ; ∂ z j ∂ x d = κ μ j d ∂ x d ∂ f d = { ∂ x d ∂ f d = ∥ f ∥ 2 − f d 2 ∥ f ∥ 3 = 1 − x d 2 ∥ f ∥ ∂ x r ∂ f d = − f d f r ∥ f ∥ 3 = − x d x r ∥ f ∥ ∂ μ d ∂ w d = { ∂ μ d ∂ w d = ∥ w ∥ 2 − w d 2 ∥ w ∥ 3 = 1 − μ d 2 ∥ w ∥ ∂ μ r ∂ w d = − w d w r ∥ w ∥ 3 = − μ d μ r ∥ w ∥ \begin{array}{c} \frac{\partial z_{j}}{\partial \kappa}=\mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial z_{j}}{\partial \mu_{j d}}=\kappa x_{d} ; \quad \frac{\partial z_{j}}{\partial x_{d}}=\kappa \mu_{j d} \\ \frac{\partial x_{d}}{\partial f_{d}}=\left\{\begin{array}{l} \frac{\partial x_{d}}{\partial f_{d}}=\frac{\|\mathbf{f}\|^{2}-f_{d}^{2}}{\|\mathbf{f}\|^{3}}=\frac{1-x_{d}^{2}}{\|\boldsymbol{f}\|} \\ \frac{\partial x_{r}}{\partial f_{d}}=\frac{-f_{d} f_{r}}{\|\mathbf{f}\|^{3}}=\frac{-x_{d} x_{r}}{\|\mathbf{f}\|} \end{array} \quad \frac{\partial \mu_{d}}{\partial w_{d}}=\left\{\begin{array}{l} \frac{\partial \mu_{d}}{\partial w_{d}}=\frac{\|\mathbf{w}\|^{2}-w_{d}^{2}}{\|\mathbf{w}\|^{3}}=\frac{1-\mu_{d}^{2}}{\|\mathbf{w}\|} \\ \frac{\partial \mu_{r}}{\partial w_{d}}=\frac{-w_{d} w_{r}}{\|\mathbf{w}\|^{3}}=\frac{-\mu_{d} \mu_{r}}{\|\mathbf{w}\|} \end{array}\right.\right. \end{array} ∂κ∂zj=μjTx;∂μjd∂zj=κxd;∂xd∂zj=κμjd∂fd∂xd={∂fd∂xd=∥f∥3∥f∥2−fd2=∥f∥1−xd2∂fd∂xr=∥f∥3−fdfr=∥f∥−xdxr∂wd∂μd={∂wd∂μd=∥w∥3∥w∥2−wd2=∥w∥1−μd2∂wd∂μr=∥w∥3−wdwr=∥w∥−μdμr
∂ L ∂ κ = ∑ j = 1 M ( p j − y j ) μ j T x ; ∂ L ∂ μ j d = ( p j − y j ) κ x d ∂ L ∂ x d = ∑ j = 1 M ( p j − y j ) κ μ j d ; ∂ L ∂ f d = 1 ∥ f ∥ ( ∂ L ∂ x d − x d ∑ r ∂ L ∂ x r x r ) \begin{array}{c} \frac{\partial \mathcal{L}}{\partial \kappa}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial \mathcal{L}}{\partial \mu_{j d}}=\left(p_{j}-y_{j}\right) \kappa x_{d} \\ \frac{\partial \mathcal{L}}{\partial x_{d}}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \kappa \mu_{j d} ; \quad \frac{\partial \mathcal{L}}{\partial f_{d}}=\frac{1}{\|\mathbf{f}\|}\left(\frac{\partial \mathcal{L}}{\partial x_{d}}-x_{d} \sum_{r} \frac{\partial \mathcal{L}}{\partial x_{r}} x_{r}\right) \end{array} ∂κ∂L=∑j=1M(pj−yj)μjTx;∂μjd∂L=(pj−yj)κxd∂xd∂L=∑j=1M(pj−yj)κμjd;∂fd∂L=∥f∥1(∂xd∂L−xd∑r∂xr∂Lxr)
5.解释和讨论
- 平均值(µ):提供了该类的预期表示(例如,平均面部图像)
- 浓度(κ):(独立计算)表示该类样本内的变化
- 更高的κ值将使特征更加集中在µ周围,以最小化类内变化(减少样本和平均值的角距离)并最大化类间距离
6. 验证
- [47]:CNN模型,27卷积,4个池,1个全连接层FC组成。来自FC层的512维输出然后被单位归一化,我们将其视为输入2D图像的期望方向特征表示
- 预处理——提取特征——计算分数:计算余弦相似度作为分数,并将其与阈值进行比较
4 实验、结果和讨论
数据集
- LFW:野外人脸识别
- IJB-A:人脸模板匹配
- Y ouTube faces:视频人脸匹配
- CACD:跨年龄人脸匹配
5 总结
- 我们使用vMF混合模型作为理论基础,提出了统计特征表示(SFR)模型。
- 我们开发了一种有效的方向特征学习方法,称为vMF FL,它构造了一种新的损失函数,称为vMFML。它有几个有趣的特性,例如:(a)学习辨别特征;(b) 包含不同的损失函数和归一化技术,以及(c)解释参数和对象特征之间的关系。
展望未来
(a)使用学习模型来合成保持身份的人脸并增强训练数据集;
(b)利用生成性对抗网络探索SFR模型
(c)将其应用于其他视觉任务(例如场景分析)、其他域(例如NLP、语音分析)和其他任务(例如聚类)。此外,通过忽略平等特权假设,可以进一步分析类/集群的变化,这对于无监督问题很有意义。