【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

1 介绍

  • 人脸识别,可以归结为单位长度特征向量的有监督分类或无监督聚类,其距离可以简单地通过角度计算,即余弦距离
  • [45、10、47、51]:对最终特征向量进行统一规范化,在简单的softmax损失之外,提供额外或增强的监督信号,以进一步实现区分学习,即压缩类内实例,同时排斥类间实例,从而提高了最终的识别精度。——理论上并不清楚
  • 单位长度归一化特征向量是方向特征,它只保留数据特征的方向作为鉴别信息,而忽略其大小。在这种情况下,简单的角度测量,例如余弦距离,可以用作两个数据点的不相似性测量,并提供非常直观的相似性几何解释。
  • 统计混合模型(MM)是执行概率聚类的常用方法,该聚类假设了一个生成模型,即每个观测都是概率分布有限混合的样本。我们采用MM的理论概念来表示深层特征。
  • 本文将深度神经网络(例如基于CNN的神经网络)提供的(深度)特征建模为von Mises Fisher分布的混合,也称为vMF混合模型(vMFMM)。von Mises Fisher(vMF)是一种基本概率分布,已成功地用于无监督分类里。在将此vMFMM与深度神经网络相结合时,我们导出了一个新的损失函数,即vMF混合损失(vMFML),它能够实现区分学习。
  1. 特征表示模型
  • 基于具有方向分布的统计有限混合模型
  1. 方向特征表示学习方法vMF-FL
  • 将理论模型与CNN模型相结合
  • 新的损失函数vMFML:其公式与反向传播方法表明,它可以很容易地与任何CNN模型集成。此外,vMFML能够解释不同的损失函数和归一化方法。vMFML不仅解释了参数和特征之间的关系,而且提高了CNN学习任务的效率(更快的收敛)和性能(更好的准确性)。它可以在方向特征假设下用于各种分类任务。
  1. FR任务中好
vMF发展
  • [15] [2] [12]:无监督分类(2017年)

2 相关工作

混合模型MM

[28]:基于神经网络(NN)的方法对混合模型(MM)的研究相对较少

[29]:使用高斯MM(GMM)将深度NN建模为变压器的混合物

[42]:使用了对数线性模型与GMM和NN的概念

[43]:通过他们提出的GMM层学习了区别特征

本文不同之处:

  • 使用方向(单位归一化)特征
  • 使用vMF[25]分布,它更适合于方向特征
  • 特征表示模型基于基于生成模型的[4]概念

具有方向分布的MM
  • 仍然没有被探索来学习辨别特征
  • 本文通过使用vMF分布[25,2]对任务进行建模并将其与CNN模型相结合来探索这一点

损失函数

人脸识别FR
  • 通常,FR方法使用softmax损失来训练CNN作为身份分类器。
  • [47]:中心损失来增强特征识别
  • vMF FL仅通过身份分类学习特征,并且只需要类别标签。

3 方法

1. 统计特征表示模型(SFR)

特征是从概率分布的有限统计混合中发布的,然后,使用变换器将这些特征转换为2D图像空间,具有M类的SFR模型:

SFR ⁡ ( x i ∣ Θ M ) = ∑ j = 1 M π j V d ( x i ∣ μ j , κ j ) \operatorname{SFR}\left(\mathbf{x}_i \mid \Theta_M\right)=\sum_{j=1}^M \pi_j V_d\left(\mathbf{x}_i \mid \mu_j, \kappa_j\right) SFR(xiΘM)=j=1MπjVd(xiμj,κj)

π j :第 j 类的混合比例 \pi_j :第j类的混合比例 πj:第j类的混合比例

μ j :第 j 类的平均方向 \mu_j :第j类的平均方向 μj:第j类的平均方向

κ j :第 j 类的浓度值 \kappa_j :第j类的浓度值 κj:第j类的浓度值

Θ M :一组模型参数 \Theta_M:一组模型参数 ΘM:一组模型参数

V d ( . ) : v M F 分布的密度函数 V_d(.):vMF分布的密度函数 Vd(.)vMF分布的密度函数

  • 每个类j具有相同的出现概率π,并且分布有相同的浓度值κ——这个假设对于区分学习是重要的,以确保监督分类器不偏向于任何特定类别。
2. vMF特征学习(vMF FL)方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWwxdgPi-1666537383903)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20221023001449843.png)]

(1)使用CNN模型将输入2D对象图像映射到vMF特征,我们将其用作变换器

(2)基于SFR模型的区分视图将特征分类到各个类别。

  • 它通过整合SFR和CNN模型来制定优化问题,并通过最小化分类损失来学习参数。
3. vMF混合模型(vMFMM)

V d ( x ∣ μ , κ ) = C d ( κ ) exp ⁡ ( κ μ T x ) V_d(\mathbf{x} \mid \mu, \kappa)=C_d(\kappa) \exp \left(\kappa \mu^T \mathbf{x}\right) Vd(xμ,κ)=Cd(κ)exp(κμTx)

归一化常数: C d ( κ ) = κ d / 2 − 1 ( 2 π ) d / 2 I d / 2 − 1 ( κ ) 归一化常数 : C_d(\kappa)=\frac{\kappa^{d / 2-1}}{(2 \pi)^{d / 2} I_{d / 2-1}(\kappa)} 归一化常数:Cd(κ)=(2π)d/2Id/21(κ)κd/21

μ :均值方向, κ :围绕方向 μ 的浓度参数 \mu : 均值方向,\kappa :围绕方向\mu的浓度参数 μ:均值方向,κ:围绕方向μ的浓度参数

I ρ ( . ) :第一类修正贝塞尔函数, I d ( k ) = ∑ k ≥ 0 1 Γ ( d + k + 1 ) k ! ( k 2 ) 2 k + d I_{\rho}(.) :第一类修正贝塞尔函数, I_{d}(k)=\sum_{k \geq 0} \frac{1}{\Gamma(d+k+1) k !}\left(\frac{k}{2}\right)^{2 k+d} Iρ(.):第一类修正贝塞尔函数,Id(k)=k0Γ(d+k+1)k!1(2k)2k+d

μ = ∑ i x i ∥ ∑ i x i ∥ , k = A d − 1 ( R ˉ ) , Γ ( ⋅ ) 伽马函数 \mu=\frac{\sum{ }_{i} x_{i}}{\left\|\sum_{i} x_{i}\right\|,} \quad k=A_{d}^{-1}(\bar{R}), \Gamma(\cdot)伽马函数 μ=ixi,ixik=Ad1(Rˉ)Γ()伽马函数

A d ( k ) = − c d ′ ( k ) c d ( k ) = I d / 2 ( k ) I d / 2 − 1 ( k ) = ∥ ∑ i x i ∥ n = R ˉ A_{d}(k)=\frac{-c_{d}^{\prime}(k)}{c_{d}(k)}=\frac{I_{d / 2}(k)}{I_{d / 2-1}(k)}=\frac{\left\|\sum_{i} x_{i}\right\|}{n}=\bar{R} Ad(k)=cd(k)cd(k)=Id/21(k)Id/2(k)=nixi=Rˉ


X = { x i } i = 1 , … , N 一组样本, N 是样本总数,有 M 类特征 \mathbf{X}=\left\{\mathbf{x}_{i}\right\}_{i=1, \ldots, N} 一组样本, N是样本总数,有M类特征 X={xi}i=1,,N一组样本,N是样本总数,有M类特征

对于每个样本 x i : g v ( x i ∣ Θ M ) = ∑ j = 1 M π j V d ( x i ∣ μ j , κ j ) ( 前面的 S F R ) 对于每个样本\mathbf{x}_{i} :g_{v}\left(\mathbf{x}_{i} \mid \Theta_{M}\right)=\sum_{j=1}^{M} \pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right) (前面的SFR) 对于每个样本xigv(xiΘM)=j=1MπjVd(xiμj,κj)(前面的SFR)

Θ M = { ( π 1 , μ 1 , κ 1 ) , … , ( π M , μ M , κ M ) :参数集 \Theta_{M}=\left\{\left(\pi_{1}, \mu_{1}, \kappa_{1}\right), \ldots,\left(\pi_{M}, \mu_{M}, \kappa_{M}\right)\right.:参数集 ΘM={(π1,μ1,κ1),,(πM,μM,κM):参数集

π j :第 j 类的混合比例 \pi_j :第j类的混合比例 πj:第j类的混合比例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-shtQQ1tL-1666537383904)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20221023103547692.png)]


期望最大化EM已用于通过最小化负对数似然值来估计vMFMM参数

  • E步骤 :

后验概率: p i j = π j V d ( x i ∣ μ j , κ j ) ∑ l = 1 M π l V d ( x i ∣ μ l , κ l ) 后验概率:p_{i j}=\frac{\pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right)}{\sum_{l=1}^{M} \pi_{l} V_{d}\left(\mathbf{x}_{i} \mid \mu_{l}, \kappa_{l}\right)} 后验概率:pij=l=1MπlVd(xiμl,κl)πjVd(xiμj,κj)

  • M步骤:

参数更新: π j = 1 N ∑ i = 1 N p i j , μ j = ∑ i = 1 N p i j x i ∑ i = 1 N p i j , r ˉ = ∥ μ j ∥ N π j , μ j = μ j ∥ μ j ∥ , κ j = r ˉ d − r ˉ 3 1 − r ˉ 2 参数更新:\pi_{j}=\frac{1}{N} \sum_{i=1}^{N} p_{i j},\mu_{j}=\frac{\sum_{i=1}^{N} p_{i j} \mathbf{x}_{i}}{\sum_{i=1}^{N} p_{i j}},\bar{r}=\frac{\left\|\mu_{j}\right\|}{N \pi_{j}},\mu_{j}=\frac{\mu_{j}}{\left\|\mu_{j}\right\|},\kappa_{j}=\frac{\bar{r} d-\bar{r}^{3}}{1-\bar{r}^{2}} 参数更新:πj=N1i=1Npijμj=i=1Npiji=1Npijxirˉ=Nπjμjμj=μjμjκj=1rˉ2rˉdrˉ3


4. vMFML损失函数和优化
  • vMF FL方法旨在通过最小化分类损失来学习区分特征
  • 将目标设置为最小化由vMFMM引导的交叉熵
  • 将基于SFR模型的等特权假设的后验概率重写为

p i j = exp ⁡ ( κ μ j T x i ) ∑ l = 1 M exp ⁡ ( κ μ l T x i ) p_{i j}=\frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)} pij=l=1Mexp(κμlTxi)exp(κμjTxi)


  • 损失函数

L v M F M L = − ∑ i = 1 N ∑ j = 1 M y i j log ⁡ ( p i j ) = − ∑ i = 1 N log ⁡ exp ⁡ ( κ μ j T x i ) ∑ l = 1 M exp ⁡ ( κ μ l T x i ) = − ∑ i = 1 N log ⁡ e z i j ∑ l = 1 M e z i l [ z j = κ μ j T x i ] \mathcal{L}_{v M F M L}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right)=-\sum_{i=1}^{N} \log \frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}=-\sum_{i=1}^{N} \log \frac{e^{z_{i j}}}{\sum_{l=1}^{M} e^{z_{i l}}}\left[z_{j}=\kappa \mu_{j}^{T} \mathbf{x}_{i}\right] LvMFML=i=1Nj=1Myijlog(pij)=i=1Nlogl=1Mexp(κμlTxi)exp(κμjTxi)=i=1Nlogl=1Mezilezij[zj=κμjTxi]

y i j :真实类概率,若为 1 ,只知道真正的类标签 y_{i j}:真实类概率,若为1,只知道真正的类标签 yij:真实类概率,若为1,只知道真正的类标签

  • Softmax函数

L Softmax  = − ∑ i = 1 N log ⁡ exp ⁡ ( w j T f i + b j ) ∑ l = 1 M exp ⁡ ( w l T f i + b l ) \mathcal{L}_{\text {Softmax }}=-\sum_{i=1}^{N} \log \frac{\exp \left(\mathbf{w}_{j}^{T} \mathbf{f}_{i}+b_{j}\right)}{\sum_{l=1}^{M} \exp \left(\mathbf{w}_{l}^{T} \mathbf{f}_{i}+b_{l}\right)} LSoftmax =i=1Nlogl=1Mexp(wlTfi+bl)exp(wjTfi+bj)

f i :第 i 个图像特征, w j : 第 j 类的权重, b j : 第 j 类的偏差 \mathbf{f}_{i}:第i个图像特征,\mathbf{w}_{j}:第j类的权重,\mathbf{b}_{j}:第j类的偏差 fi:第i个图像特征,wj:j类的权重,bj:j类的偏差

  • 两损失函数差异:
  1. vMFML使用单位规范化特征(规范化特征向量)

x = f ∥ f ∥ \mathbf{x}=\frac{\mathbf{f}}{\|\mathbf{f}\|} x=ff

  1. 平均参数与softmax权重的关系如下(规范化权重)

μ = w ∥ w ∥ \mu=\frac{\mathbf{w}}{\|\mathbf{w}\|} μ=ww

  1. 没有偏差b
  2. 它有一个额外的参数κ(乘法标量项替换加性偏差项)

  • 计算vMFML的梯度

∂ z j ∂ κ = μ j T x ; ∂ z j ∂ μ j d = κ x d ; ∂ z j ∂ x d = κ μ j d ∂ x d ∂ f d = { ∂ x d ∂ f d = ∥ f ∥ 2 − f d 2 ∥ f ∥ 3 = 1 − x d 2 ∥ f ∥ ∂ x r ∂ f d = − f d f r ∥ f ∥ 3 = − x d x r ∥ f ∥ ∂ μ d ∂ w d = { ∂ μ d ∂ w d = ∥ w ∥ 2 − w d 2 ∥ w ∥ 3 = 1 − μ d 2 ∥ w ∥ ∂ μ r ∂ w d = − w d w r ∥ w ∥ 3 = − μ d μ r ∥ w ∥ \begin{array}{c} \frac{\partial z_{j}}{\partial \kappa}=\mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial z_{j}}{\partial \mu_{j d}}=\kappa x_{d} ; \quad \frac{\partial z_{j}}{\partial x_{d}}=\kappa \mu_{j d} \\ \frac{\partial x_{d}}{\partial f_{d}}=\left\{\begin{array}{l} \frac{\partial x_{d}}{\partial f_{d}}=\frac{\|\mathbf{f}\|^{2}-f_{d}^{2}}{\|\mathbf{f}\|^{3}}=\frac{1-x_{d}^{2}}{\|\boldsymbol{f}\|} \\ \frac{\partial x_{r}}{\partial f_{d}}=\frac{-f_{d} f_{r}}{\|\mathbf{f}\|^{3}}=\frac{-x_{d} x_{r}}{\|\mathbf{f}\|} \end{array} \quad \frac{\partial \mu_{d}}{\partial w_{d}}=\left\{\begin{array}{l} \frac{\partial \mu_{d}}{\partial w_{d}}=\frac{\|\mathbf{w}\|^{2}-w_{d}^{2}}{\|\mathbf{w}\|^{3}}=\frac{1-\mu_{d}^{2}}{\|\mathbf{w}\|} \\ \frac{\partial \mu_{r}}{\partial w_{d}}=\frac{-w_{d} w_{r}}{\|\mathbf{w}\|^{3}}=\frac{-\mu_{d} \mu_{r}}{\|\mathbf{w}\|} \end{array}\right.\right. \end{array} κzj=μjTx;μjdzj=κxd;xdzj=κμjdfdxd={fdxd=f3f2fd2=f1xd2fdxr=f3fdfr=fxdxrwdμd={wdμd=w3w2wd2=w1μd2wdμr=w3wdwr=wμdμr

∂ L ∂ κ = ∑ j = 1 M ( p j − y j ) μ j T x ; ∂ L ∂ μ j d = ( p j − y j ) κ x d ∂ L ∂ x d = ∑ j = 1 M ( p j − y j ) κ μ j d ; ∂ L ∂ f d = 1 ∥ f ∥ ( ∂ L ∂ x d − x d ∑ r ∂ L ∂ x r x r ) \begin{array}{c} \frac{\partial \mathcal{L}}{\partial \kappa}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial \mathcal{L}}{\partial \mu_{j d}}=\left(p_{j}-y_{j}\right) \kappa x_{d} \\ \frac{\partial \mathcal{L}}{\partial x_{d}}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \kappa \mu_{j d} ; \quad \frac{\partial \mathcal{L}}{\partial f_{d}}=\frac{1}{\|\mathbf{f}\|}\left(\frac{\partial \mathcal{L}}{\partial x_{d}}-x_{d} \sum_{r} \frac{\partial \mathcal{L}}{\partial x_{r}} x_{r}\right) \end{array} κL=j=1M(pjyj)μjTx;μjdL=(pjyj)κxdxdL=j=1M(pjyj)κμjd;fdL=f1(xdLxdrxrLxr)

5.解释和讨论
  • 平均值(µ):提供了该类的预期表示(例如,平均面部图像)
  • 浓度(κ):(独立计算)表示该类样本内的变化
  • 更高的κ值将使特征更加集中在µ周围,以最小化类内变化(减少样本和平均值的角距离)并最大化类间距离
6. 验证
  • [47]:CNN模型,27卷积,4个池,1个全连接层FC组成。来自FC层的512维输出然后被单位归一化,我们将其视为输入2D图像的期望方向特征表示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RjCeEElc-1666537383904)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20221023132825442.png)]

  • 预处理——提取特征——计算分数:计算余弦相似度作为分数,并将其与阈值进行比较

4 实验、结果和讨论

数据集
  • LFW:野外人脸识别
  • IJB-A:人脸模板匹配
  • Y ouTube faces:视频人脸匹配
  • CACD:跨年龄人脸匹配

5 总结

  1. 我们使用vMF混合模型作为理论基础,提出了统计特征表示(SFR)模型。
  2. 我们开发了一种有效的方向特征学习方法,称为vMF FL,它构造了一种新的损失函数,称为vMFML。它有几个有趣的特性,例如:(a)学习辨别特征;(b) 包含不同的损失函数和归一化技术,以及(c)解释参数和对象特征之间的关系。
展望未来

(a)使用学习模型来合成保持身份的人脸并增强训练数据集;

(b)利用生成性对抗网络探索SFR模型

(c)将其应用于其他视觉任务(例如场景分析)、其他域(例如NLP、语音分析)和其他任务(例如聚类)。此外,通过忽略平等特权假设,可以进一步分析类/集群的变化,这对于无监督问题很有意义。


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值