On the capacity of face representation

zjupengju

已于 2022-09-08 16:30:32 修改

阅读量68

点赞数

文章标签：人工智能机器学习算法

于 2019-11-14 10:15:19 首次发布

本文链接：https://blog.csdn.net/zjupengju/article/details/103062454

版权

On the capacity of face representation

Capacity of face representation

人脸特征模型 $M$ 是一个带参数的embedding函数，用来将某个ID $\ c$ 的人脸图像 $s$ 映射到向量空间 $\in \mathbb{R}^{p}$ ，即 $\mathbf{x} = f_{M}\left( \mathbf{s};\mathbf{\theta}_{p} \right)$ ，其中 $\mathbf{\theta}_{p}$ 为参数

我们将人脸特征模型占据的空间建模为一个嵌入在高维空间 ${P\mathbb{\in R}}^{p}$ 的低维的population
manifold
$\mathcal{M \in}\mathbb{R}^{m}$ 。在该模型下，一个身份为 $c$ 的人脸特征组成了一个manifold
$\mathcal{M}_{c} \subseteq \mathcal{M}$ 。直接估计这些manifold的support和volumes是非常有挑战的，特别是考虑到在 $\mathbb{R}^{p}$ 中的manifold可能是高度纠缠(entangle)的。所以，我们首先学习一个映射，将population
manifold投影并展开到其密度、support以及volume可以更可靠的估计的低维空间。

我们的投影和展开基于Multidimensional
scaling(MDS)，其目的是在将样本潜入低维空间以后，他们之间的局部距离（相似度）依然能够保持。设 $\mathbf{X} = \left\{ x_{1},\cdots,x_{n} \right\}$ 为高维空间zhong的样本点， $\mathbf{Y} = \left\{ y_{1},\cdots,y_{n} \right\}$ 为对应的低维空间中的点。则MDS问题可以形式化为

$\min\sum_{i < j}^{}\left( d_{H}\left( \mathbf{x}_{i},\mathbf{x}_{j} \right) - d_{L}\left( \mathbf{y}_{i},\mathbf{y}_{j} \right) \right)^{2}$

其中 $d_{H}\left( . \right)$ 和 $d_{L}\left( . \right)$ 分别为高维和低维空间的距离度量。

我们使用DNN来学习这个映射，即通过 $\mathbf{y} = f_{P}\left( \mathbf{x};\mathbf{\theta}_{\mathcal{M}} \right)$ 来学习，则目标变为

$\min\sum_{i < j}^{}{\left( d_{H}\left( \mathbf{x}_{i},\mathbf{x}_{j} \right) - d_{L}\left( f\left( \mathbf{x}_{i};\mathbf{\theta}_{\mathcal{M}} \right),f\left( \mathbf{x}_{j};\mathbf{\theta}_{\mathcal{M}} \right) \right) \right)^{2} + \lambda\left\| \mathbf{\theta}_{\mathcal{M}} \right\|_{2}^{2}}\tag{2}$

我们选择 $d_{H}\left( \mathbf{x}_{i},\mathbf{x}_{j} \right) = 1 + \frac{\mathbf{x}_{i}^{T}\mathbf{x}_{j}}{\left\| \mathbf{x}_{i} \right\|_{2}\left\| \mathbf{x}_{j} \right\|_{2}}$ ， $d_{L}\left( \mathbf{y}_{i},\mathbf{y}_{j} \right) = \left\| \mathbf{y}_{i} - \mathbf{y}_{j} \right\|_{2}$ （为什么两个不一样？）

Estimating Uncertainities in Representations

前一章节学习到的模型只能用来估计manifold中的单个样本，无法给出不确定度。要准确估计人脸特征的不确定度，需要对特征中由于人脸特征提取过程中不同的噪声（例如姿态、光照等）导致的不确定度进行建模。

由黑盒模型 $M_{t}$ (教师网络，其参数为 $\left\{ \mathbf{\theta}_{\mathcal{P}},\mathbf{\theta}_{\mathcal{M}} \right\}$ )产生的噪声embedding
$\mathbf{y}$ 的概率模型为

$\begin{aligned} p\left( \mathbf{y}|\mathbf{S}^{*},\mathbf{Y}^{*} \right) &= \int_{}^{}{p(\mathbf{y}|\mathbf{s,S}^{*},\mathbf{Y}^{*}})p\left( \mathbf{s|S}^{*},\mathbf{Y}^{*} \right)d\mathbf{s} \\ &= \int_{}^{}{\int_{}^{}{p\left( \mathbf{y} \middle| \mathbf{s,\theta} \right)p\left( \mathbf{\theta} \middle| \mathbf{S}^{\mathbf{*}}\mathbf{,}\mathbf{Y}^{\mathbf{*}} \right)p\left( \mathbf{s|}\mathbf{S}^{\mathbf{*}}\mathbf{,}\mathbf{Y}^{\mathbf{*}} \right)d\mathbf{\theta}d\mathbf{s}}} \\ \end{aligned}$

其中， $\mathbf{Y}^{*} = \left\{ \mathbf{y}_{1},\cdots,\mathbf{y}_{N} \right\}$ 和 $\mathbf{S}^{*} = \left\{ \mathbf{s}_{1},\cdots,\mathbf{s}_{N} \right\}$ 为用于训练参数 $\mathbf{\theta}$ 的样本。 $p\left( \mathbf{y} \middle| \mathbf{s,\theta} \right)$ 是aleatoric(data)不确定度， $p\left( \mathbf{\theta} \middle| \mathbf{S}^{\mathbf{*}}\mathbf{,}\mathbf{Y}^{\mathbf{*}} \right)$ 是epistemic(model)不确定度， $p\left( \mathbf{s|}\mathbf{S}^{\mathbf{*}}\mathbf{,}\mathbf{Y}^{\mathbf{*}} \right)\mathcal{\sim N}\left( \mu_{g},\Sigma_{g} \right)$ 是对噪声embedding的manifold的高斯近似。另外，我们假设从图像 $\mathbf{s}$ 到无噪声的embedding $\ \mathbf{\mu}$ 的映射是一个确定的未知的函数 $\mathbf{\mu} = f\left( \mathbf{s},\mathbf{\theta} \right)$

教师网络的黑盒特性使得模型只能给出了训练集 $\mathcal{D =}\left\{ \mathbf{s}_{i},\mathbf{y}_{i} \right\}_{i = 1}^{N}$ 中的一个样本(意思是无法对分布进行建模)，所以需要用一个学生网络 $M_{s}$ (其参数为 $w$ )来模拟教师网络，更具体的说，学生网络是用来输出近似数据不确定度 $p\left( \mathbf{y}_{i} \middle| \mathbf{s}_{i},\mathbf{w} \right)\mathcal{\ \sim\ N}\left( \mathbf{\mu}_{i},\mathbf{\Sigma}_{i} \right)$ ，其中 $\mathbf{\mu}_{i}$ 表示的是无噪声的embedding的数据相关的均值近似， $\mathbf{\Sigma}_{i}$ 表示数据相关的不确定度。所以，学生网络可以看作是教师网络的无法知道的分布的近似，通过该模型，输入一张图像 $\mathbf{s}$ ，产生一个噪声embedding，其对应的无噪声embedding为 $\mathbf{\mu}$ 。即 $p\left( \mathbf{y}_{\mathbf{i}}\mathbf{|}\mathbf{s}_{\mathbf{i}}\mathbf{,w} \right)\mathbf{\approx}p\left( \mathbf{y}_{\mathbf{i}} \middle| \mathbf{\mu}_{\mathbf{i}}\mathbf{,\theta} \right)$ 。

然后，我们用变分分布来近似教师网络的模型不确定度，即 $p\left( \mathbf{w} \middle| \mathbf{S}^{\mathbf{*}}\mathbf{,}\mathbf{Y}^{\mathbf{*}} \right)\mathbf{\approx}p\left( \mathbf{\theta|}\mathbf{S}^{\mathbf{*}}\mathbf{,}\mathbf{Y}^{\mathbf{*}} \right)$

如何学习： 关键是学习学生网络。给定训练图像及其教师网络的embedding。我们用学生网络来学习高斯分布的参数，然后再通过高斯分布来模拟教师网络的embedding。

具体来说，我们用两个网络， $\mathbf{\mu}_{i} = f\left( \mathbf{s}_{i};\mathbf{w}_{\mathbf{\mu}} \right)$ 和 $\mathbf{\Sigma}_{i} = f\left( \mathbf{s}_{i};\mathbf{w}_{\mathbf{\Sigma}} \right)$ 来表示数据的不确定度 $p\left( \mathbf{y}_{i}|\mathbf{s}_{i},\mathbf{w} \right)$ ，其中 $\mathbf{w}\mathbf{=}\left\{ \mathbf{w}_{\mathbf{\mu}}\mathbf{,}\mathbf{w}_{\mathbf{\Sigma}} \right\}$ 。对于模型不确定度，这里简单的用dropout来近似变分分布(可以看成是网络权重的伯努利采样的不确定度,这里直接用dropout是否太简单，用variational
inference会不会更好?可参考论文1506.02142，1505.05424以及《Weight
uncertainty in neural networks》)

我们的模型参数为 $\phi = \left\{ \mathbf{w}_{\mathbf{\mu}}\mathbf{,}\mathbf{w}_{\mathbf{\Sigma}}\mathbf{,}\mathbf{\mu}_{g}\mathbf{,}\mathbf{\Sigma}_{g} \right\}$ ，学习采用最大似然估计，即最小化观察值 $\mathbf{Y} = \left\{ \mathbf{y}_{1},\cdots,\mathbf{y}_{N} \right\}$ 的负log-likelihood。

整体的loss函数为

$\min_{\phi}{\mathcal{L}_{s} + \lambda\mathcal{L}_{g} + \gamma\mathcal{L}_{r_{s}} + \delta\mathcal{L}_{r_{g}}} \tag{4}$

其中 $\mathcal{L}_{r_{s}} = \frac{1}{2N}\sum_{i = 1}^{N}\left\| \mathbf{\Sigma}_{i} \right\|_{F}^{2}$ 和 $\mathcal{L}_{r_{g}} = \frac{1}{2N}\sum_{i = 1}^{N}\left\| \mathbf{\Sigma}_{g} \right\|_{F}^{2}$ 是正则项， $\mathcal{L}_{s}$ 是学生网络用高斯分布 $\mathcal{N}\left( \mathbf{\mu}_{i},\mathbf{\Sigma}_{i} \right)$ 来表示噪声特征 $\mathbf{y}_{i}$ 的log似然，即

$\mathcal{L}_{s} = \frac{1}{2}\sum_{i = 1}^{N}{\ln{\left| \mathbf{\Sigma}_{i} \right| + \frac{1}{2}}}\text{Trace}\left( \sum_{i = 1}^{N}{\mathbf{\Sigma}_{i}^{- 1}\left\lbrack \left( \mathbf{y}_{i} - \mathbf{\mu}_{i} \right)\left( \mathbf{y}_{i} - \mathbf{\mu}_{i} \right)^{T} \right\rbrack} \right)$

$\mathcal{L}_{g}$ 是population
manifold（即所有人的manifold）的log-likelihood，形式为多元高斯 $\mathcal{N}\left( \mathbf{\mu}_{g},\mathbf{\Sigma}_{g} \right)$ 。注意与 $\mathcal{L}_{s}$ 的区别， $\mathcal{L}_{g}$ 是总的，所以要对统计所有样本才能算方差，所以求和是在最里面， $\mathcal{L}_{s}$ 是对单个人的，loss是考虑所有人，所以求和是在 $\mathbf{\Sigma}_{i}^{- 1}$ 之外。

$\mathcal{L}_{g} = \frac{N}{2}\ln{\left| \mathbf{\Sigma}_{g} \right| + \frac{1}{2}\text{Trace}\left( \mathbf{\Sigma}_{g}^{- 1}\sum_{i = 1}^{N}\left\lbrack \left( \mathbf{y}_{i} - \mathbf{\mu}_{g} \right)\left( \mathbf{y}_{i} - \mathbf{\mu}_{g} \right)^{T} \right\rbrack \right)}$

为了计算方便，我们假设协方差矩阵 $\mathbf{\Sigma}$ 是一个对角阵，这也意味着我们假设embedding的各个维度的不确定度是独立的。这个假设会带来两个便利：1）学生网络只需要预测协方差矩阵的对角元素；2）半正定约束在对角矩阵中，只需要保证对角元素非负即可。由于对角元素非负，我们可以计算对角元素的log值， $l_{j} = \log\sigma_{j}^{2}$ 。（为什么要强调非负呢，方差不是一定为正吗，关键原因是这是网络预测的，不是计算出来的），基于此假设，我们可以简化

$\mathcal{L}_{s} = \frac{1}{2}\sum_{i = 1}^{N}{\sum_{j = 1}^{d}l_{i}^{j}} + \frac{1}{2}\sum_{i = 1}^{N}{\sum_{j = 1}^{d}\frac{\left( y_{i}^{j} - \mu_{i}^{j} \right)^{2}}{\exp\left( l_{i}^{j} \right)}}$

同样，我们可以对 $\mathcal{L}_{g}、\mathcal{L}_{r_{s}}、\mathcal{L}_{r_{g}}$ 进行简化。

在实际学习参数时，我们用所有训练样本的平均脸作为 $\mathbf{\mu}_{g}$ ，然后学习其他三组参数 $\left\{ \mathbf{w}_{\mathbf{\mu}}\mathbf{,}\mathbf{w}_{\mathbf{\Sigma}}\mathbf{,}\mathbf{\Sigma}_{g} \right\}$

推断： 对于一张人脸图像 $\mathbf{s}$ ，数据不确定度可以如下计算

$\mathbf{\mu} = f\left( \mathbf{s};\mathbf{w}_{\mathbf{\mu}} \right)$

$\mathbf{\Sigma} = f\left( \mathbf{s},\mathbf{w}_{\mathbf{\Sigma}} \right)$

模型不确定度可以通过对模型参数 $\mathbf{w}$ 的不同采样求蒙特卡洛积分得到。具体来说，对 $\mathbf{w}$ 的不同采样通过dropout来实现，经过 $T$ 轮估计，最终可得模型不确定度可通过蒙特卡洛积分计算

${{\widehat{\mu}}_{i} = \frac{1}{T}\sum_{t = 1}^{T}\mu_{i}^{t} }{{\widehat{\Sigma}}_{i} = \frac{1}{T}\sum_{t = 1}^{T}{\left( \mu_{i}^{t} - {\widehat{\mu}}_{i} \right)\left( \mu_{i}^{t} - {\widehat{\mu}}_{i} \right)^{T}} + \frac{1}{T}\sum_{t = 1}^{T}\Sigma_{i}^{t}}$

其中 $\mu_{i}^{t}$ 和 $\Sigma_{i}^{t}$ 是学生网络预测的数据不确定度

manifold approximation

近似manifold的方法可以有参数化和无参数化两种，参数化的方法(比如多元高斯)计算简单，泛化性能好，但对density和support的估计没那么准(相当于模型的bias偏大，但variance正常)，无参数化方法则相反(bias小而variance大)。本文采用参数化方法
，在embedding投影的低维空间中使用多元高斯模型来近似population和单个类别的manifold的近似。

之所以要选择多元高斯，是因为(1)从概率的角度来看，更鲁棒、计算manifold的密度更简单；(2)从几何角度来看，多元高斯假设manifold呈超椭球，这在计算指定误报下的manifold的support和volume有好处；(3)通过MDS得到的低维映射本身包含了将同一人的图像聚在一起的要求，所以使用
高斯分布来近似manifold也是合理的

计算方法如下，population embedding的均值计算方法为 $\mathbf \mu_{{\mathbf y}_c} = \frac 1 C \sum_{c=1}^C \mathbf{\hat \mu}^c$ ，其中 $\mathbf{\hat \mu}^c = \frac 1 {N_c} \sum_{i=1}^{N_c}\mathbf{\hat \mu}_i^c$ 。population embedding的方差 $\Sigma_{ \mathbf{y}_c}$ 估计如下

$KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at position 25: …ligned} \tilde \̲m̲a̲t̲h̲b̲f̲ ̲\Sigma^c &= \un…$

$\Sigma_{ \mathbf{z}_c}= \frac{1}{N_cT}\sum_{i=1}^{N_c}\sum_{t=1}^{T} \left[ \left( \mathbf{\mu}_i^t - \mathbf{\hat{\mu}}_i \right) \left( \mathbf{\mu}_i^t - \mathbf{\hat{\mu}}_i \right)^T + \mathbf \Sigma_i^t \right] \tag{9}$

model capacity

下面我们要建立population和单个类的manifold与FAR的函数关系

我们用一个多元高斯分布来建模population manifold，对每一个类的噪声embedding也用一个多元高斯模型来建模。在此设定下，判别函数决定了决策边界以及分类正确率。
如何引入FAR呢？实际上，对于二分类来说，分类面决定了阈值，从而关联到FAR。对于多类分类来说，判别函数是被所有两两分类的分类面包围的表面(如下图黄色区域)，可以渐进的用超椭球表示
该超椭球的support可以用可以接受的FAR来决定。
在这里插入图片描述

在多类分类设定下，capacity估计问题可以等价于ellipse packing问题，即估计在一个大椭球里，最多可以包裹多少个小椭球的问题(对于人脸识别来说，大椭球是所有人撑起的空间，小椭球是单个人)。超椭球的容量 $V$ 对应于马氏距离
$r^2=(x-\mu)^T\Sigma^{-1}(x-\mu)$ ，其中，协方差矩阵 $\Sigma$ 计算公式为 $V=V_d \left| \Sigma \right|^{\frac{1}{2}}r^d$ ，其中 $V_d$ 为d维超球的容量。人脸特征的capacity的上限可以用population的volume和单个人的volume之比
来计算
$\begin{aligned} C & \le \left( \frac{V_{y_c,z_c}}{V_{z_c}} \right)\\ &= \left( \frac{V_d \left| \Sigma_{y_c} + \Sigma_{z_c}\right|^{\frac{1}{2}} r_{y_c}^d}{V_d \left| \Sigma_{z_c} \right|^{\frac{1}{2}} r_{z_c}^d} \right) = \left( \frac{\left| \Sigma_{y_c} + \Sigma_{z_c}\right|^{\frac{1}{2}}r_{y_c}^d}{\left| \Sigma_{z_c}^{\frac{1}{2}} \right|r_{z_c}^d} \right) \\ &= \left( \frac{\left| \bar\Sigma_{y_c,z_c} \right|^{\frac{1}{2}} }{\left| \bar \Sigma_{z_c} \right|^{\frac{1}{2}}} \right) \tag{10}\\ \end{aligned}$

其中， $V_{y_c,z_c}$ 为population超椭球的容量， $V_{z_c}$ 为单个类的容量。population超椭球的size $r_{y_c}$ 通过设定包含多少个人（类别）来确定， $r_{z_c}$ 决定了单个类别的size。 $\bar \Sigma_{y_c,z_c}$ 以及 $\bar \Sigma_{z_c}$ 为包围进来的population和单个类的effective size

实际如何做

设 $\Omega=\{ x | r^2 \ge (x-\mu)^T \Sigma^{-1} (x-\mu)\}$ 为图中黄色的超椭球，不失一般性的，假设单个类的超椭球中心在原点，则误报 $q$ 可以计算如下
$q=1-\int_{x\in\Omega} \frac{1}{\sqrt{(2\pi)^d\left| \Sigma \right|}}\exp \left( -\frac{x^T\Sigma^{-1}x}{2} \right) dx$

设 $y=\Sigma^{-\frac{1}{2}}x$ ，则有 $\Omega=\{y|r^2 \ge y^Ty\}$ ，q为
$q=1-\int_{y\in\Omega}\frac{1}{\sqrt{(2\pi)^d}}\exp \left( -\frac{y^Ty}{2} \right) dy \tag{12}$
其中, $\{y_1,\cdots,y_n\}$ 为独立的标准归一化的随机变量。马氏距离 $r^2$ 服从卡方分布 $\chi^2(r^2,d)$ ，自由度为 $d$ ， $1 - q$ 为卡方分布 $\chi^2(r^2,d)$ 的CDF(为什么？)，所以，给定FAR $q$ ，对应的马氏距离 $r_{z_c}$ 可以从卡方分布的inverse CDF计算得到。同样，population超椭球的size $r_{y_c}$
可以从 $\chi^2(r_y^2,d)$ 的inverse CDF计算得到。然后就可以计算得到capacity $C$

算法流程如下
algorithm1

实验

数据集

CASIA: 训练教师学生网络

LFW & IJB-A/B/C: 估计教师网络的capacity

Face Representation performance

学生网络：每个卷积层以及manifold projection之前都有dropout

manifold projection and unfolding部分使用CASIA WebFace来训练，训练样本为随机选择的 $x_i$ 和 $y_i$ 。使用ADAM，正则化参数为 $\lambda = 3 \times 10^{-4}$ ，
用cos学习率下降方式对训练mapping至关重要

学生网络的训练目标是优化公式(4)中的loss。卷积的dropout ratio为0.05，FC层为0.2
inference阶段，每张图都过学生网络1000遍，然后计算蒙特卡洛积分来计算image embedding的均值和方差

实验： 在LFW、IJB-A、IJB-B、IJB-C来评估。

实验结果如下

说明学生网络能接近教师网络的性能

Face Representation Capacity

实现细节

我们用公式10来估计模型的capacity，对于每个测试集，都需要估计population的 $\Sigma_{y_c}$ 和单个类的 $\Sigma_{z_c}$ ，具体计算是在inference时加入dropout，对每张图进行1000次
前向，为了去除outlier的影响，对于LFW，我们选择2张以上的类，对于IJB-A/B/C，则选择5张以上的类。

zjupengju

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
On the capacity of face representation

On the capacity of face representationCapacity of face representation人脸特征模型MMM是一个带参数的embedding函数，用来将某个ID c\ c c的人脸图像sss映射到向量空间x∈Rpx \in \mathbb{R}^{p}x∈Rp，即x=fM(s;θp)\mathbf{x} = f_{M}\lef...
复制链接

扫一扫