Supervised Descent Method and its Applications to Face Alignment

最新推荐文章于 2019-02-01 16:17:10 发布

xiamentingtao

最新推荐文章于 2019-02-01 16:17:10 发布

阅读量6.9k

点赞数 3

分类专栏：人脸识别文章标签：机器学习 alignment

本文链接：https://blog.csdn.net/xiamentingtao/article/details/47306887

版权

人脸识别专栏收录该内容

16 篇文章 1 订阅

订阅专栏

广播说明：
进入深度学习时代，如下的方法已经失去可比性，且我们的代码实现地很粗糙，如果坚持要用，推荐如下代码
https://github.com/wanglin193/SupervisedDescentMethod （看起来作者对sdm实现的不错）

另外一篇基于深度学习的基于回归的方法，也是使用的基于SDM的相同的思路，但是全部深度学习化，
更加鲁棒。见：《Stacked Hourglass Network for Robust Facial Landmark Localisation》

本方法是当前人脸对齐最流行的算法，速度很快，很稳定。下面我将介绍一下这篇文章的整体思路和相关细节。
在介绍之前,先给出几个有用的链接:
1.)
本论文作者主页，形象地介绍了SDM的特点:
http://xiong828.github.io/sdm.html
2. )
superviseddescent C++11版本的实现:
http://patrikhuber.github.io/superviseddescent/
下面开始介绍:
人脸对齐就是要找人脸的特征点。如图
。
我们要找到眼睛、鼻子、嘴巴等特征点。那么如何去做呢？方法有很多。本文讲述了使用SDM去求特征点的方法。假设我们有一个初始的特征点 $x_0$ ，希望通过迭代，逐步求出准确地特征点 $x_*$ 。这就是大致的思路。

SDM方法（Supervised Descent Method ）

Derivation of SDM

给定一幅含有m个像素的图像 $d\in R^{m\times 1}$ , $d(x)\in R^{p\times 1}$ 用来索引图像的p个特征点，x代表p个特征点。 $h(d(x))\in R^{128p\times 1}$ 代表SIFT特征向量。在训练阶段，我们假设准确的p个特征点已知，设为 $x_*$ 。我们另外选取训练集特征点的平均值 $x_0$ 作为初始值。如图：

这样，Face Alignment可以通过在 $\Delta x$ 求解如下的最优化问题：

f (x 0 + Δ x) = | | h (d (x 0 + Δ x)) - Φ * | | 22

$f(x_0+\Delta x)=||h(d(x_0+\Delta x))-\Phi_*||_2^2$
这里

Φ∗=h(d(x∗)) Φ ∗ = h ( d ( x ∗ ) ) $\Phi_*=h(d(x_*))$ 代表手工标记的特征点的SIFT特征。在训练阶段，

Φ∗ Φ ∗ $\Phi_*$ 和

Δx Δ x $\Delta x$ 已知。

f (x 0 + Δ x) \approx f (x 0) + J f (x 0) T Δ x + 1 2 Δ x T H (x 0) Δ x

$f(x_0+\Delta x)\approx f(x_0)+J_f(x_0)^T\Delta x+\frac{1}{2}\Delta x^TH(x_0)\Delta x$
对上面关于

Δx Δ x $\Delta x$ 求导,令

f′(x0+Δx)=0 f ′ ( x 0 + Δ x ) = 0 $f'(x_0+\Delta x)=0$ ，可得

Δ x 1 = - H - 1 J f = - 2 H - 1 J T h (Φ 0 - Φ *)

$\Delta x_1=-H^{-1}J_f=-2H^{-1}J_h^T(\Phi_0-\Phi_*)$
,这里

Φ0=h(d(x0)) Φ 0 = h ( d ( x 0 ) ) $\Phi_0=h(d(x_0))$ .
令

R=−2H−1JTh，ΔΦ0=Φ0−Φ∗ R = − 2 H − 1 J h T ， Δ Φ 0 = Φ 0 − Φ ∗ $R=-2H^{-1}J_h^T，\Delta \Phi_0=\Phi_0-\Phi_*$ ,于是R可看作

Δx1 Δ x 1 $\Delta x_1$ 到

ΔΦ0 Δ Φ 0 $\Delta \Phi_0$ 的线性回归系数。但是，我们知道在测试阶段，

Φ∗ Φ ∗ $\Phi_*$ 是未知的，但是固定的。因此我们不再使用

Φ∗ Φ ∗ $\Phi_*$ 做训练，而是改用下面的公式：

Δ x 1 Δ x 1 Δ x 1 = = = - 2 H - 1 J T h (Φ 0 - Φ *) - 2 H - 1 J T h Φ 0 + (- 2 H - 1 J T h) (- Φ *) R Φ 0 + b 0

$\begin{equation*} \begin{aligned} \Delta x_1&=&-2H^{-1}J_h^T(\Phi_0-\Phi_*)\\ \Delta x_1&=&-2H^{-1}J_h^T\Phi_0+(-2H^{-1}J_h^T)(-\Phi_*)\\ \Delta x_1&=&R\Phi_0+b_0 \end{aligned} \end{equation*}$
使用训练样本，我们的方法可以学习

R0,b0 R 0 , b 0 $R_0,b_0$ .
通常这种方法不可能一步迭代完成，需要进行多步，除非f是二次的。为了处理这个非二次的方程，SDM将产生一系列的下降方向

{Rk} { R k } $\{R_k\}$ 和偏差

{bk} { b k } $\{b_k\}$ .
即

x k = x k - 1 + R k - 1 Φ k - 1 + b k - 1 (1) (1)

$\begin{equation} x_k=x_{k-1}+R_{k-1}\Phi_{k-1}+b_{k-1} \quad (1)\end{equation}$ ,使得对于训练图片集，

xk x k $x_k$ 将收敛到

x∗ x ∗ $x_*$ .

Learning for SDM

假定给定一系列人脸 $\{d^i\}$ 与对应的特征点 $\{x_*^i\}$ .对于每张图片，从初始的特征点 $x_0^i$ 出发， $R_0,b_0$ 可以通过求解最优化问题获得：

a r g R 0 m i n b 0 \sum d i \int p (x i 0) | | Δ x i - R 0 Φ i 0 - b 0 | | 2 d x i 0

$\begin{matrix} arg\\R_0 \end{matrix}\begin{matrix} min\\b_0 \end{matrix}\sum_{d^i}\int p(x_0^i)||\Delta x^i-R_0\Phi_0^i-b_0||^2dx_0^i$
这里

Δxi=xi∗−xi0,Φi0=h(di(xi0)) Δ x i = x ∗ i − x 0 i , Φ 0 i = h ( d i ( x 0 i ) ) $\Delta x^i=x_*^i-x_0^i,\Phi_0^i=h(d^i(x_0^i))$ .
我们假定

xi0 x 0 i $x_0^i$ 可以从服从正态分布的人脸检测框对齐采样。于是上面的最优化问题化为：

a r g R 0 m i n b 0 \sum d i \sum x i 0 | | Δ x i - R 0 Φ i 0 - b 0 | | 2

$\begin{matrix} arg\\R_0 \end{matrix}\begin{matrix} min\\b_0 \end{matrix}\sum_{d^i}\sum_{x_0^i}||\Delta x^i-R_0\Phi_0^i-b_0||^2$
以上方程是个线性的最优化问题，可以直接求解。
当第一步求解完毕后，代入方程式（1）,可以求出

x1 x 1 $x_1$ ,进而又可以计算特征向量

Φik=h(di(xik)) Φ k i = h ( d i ( x k i ) ) $\Phi_k^i=h(d^i(x_k^i))$ 和

Δxki∗=xi∗−xik Δ x ∗ k i = x ∗ i − x k i $\Delta x_*^{ki}=x_*^i-x_k^i$ .这样

Rk,bk R k , b k $R_k,b_k$ 可以通过一个新的线性回归得到。

a r g R k m i n b k \sum d i \sum x i k | | Δ x k i * - R k Φ i k - b k | | 2

$\begin{matrix} arg\\R_k \end{matrix}\begin{matrix} min\\b_k \end{matrix}\sum_{d^i}\sum_{x_k^i}||\Delta x_*^{ki}-R_k\Phi_k^i-b_k||^2$
随着k的增大，误差逐渐减小，一般4到5次的迭代就可以达到比较好的效果。