1、基本思想
训练多个深度卷积神经网络(deep ConvNets)对输入的人脸块(face patches)进行特征提取,然后训练每一个卷积神经网络(以下简称为ConvNet)的目标是对输入的face patch进行分类,这一步是有监督的训练,即每一个face patch对应于一个类别标签,每一个ConvNet 的输出节点数目是相同的,即160维。然后所有的这些ConvNets的输出(不是那个预测类别信息的输出,是该预测类别信息的前一层,即160维)就是提取到的特征,称为
Deep hiddenidentity feature(DeepID),将这些特征连起来(concatenate),送入到Joint Bayesian或者再接一个神经网络,进行Faceverification.整个过程可用下面两幅图来说明(以用神经网络进行Faceverification为例):
第一阶段,提取特征
第二阶段:Faceverification
2、 网络结构=
一个ConvNet的结构如下:
这是一个有4个卷积层(除第4个卷积层外0每一个卷积层后面接一个max-pooling层)的网络。特别之处在于DeepID那一层和第4个卷积层以及第3个卷积层后面的max-pooling层全连接。作者解释说这样做的是因为第4层卷积层含有的神经元的个数太少,成为信息传递的瓶颈。这样做就是作者所谓的Multi-scaleConvNets. 第4个卷积层提取到的特征是比第3个max-pooling层更加具有全局性的特征。然后这个DeepID接一个softmax进行分类。这样提取到的特征是对类间具有很好的判别性的,相当于增加了类间的距离。(个人理解,从作者的另外一篇文章《DeepLearning Face Representation by Joint Identification-Verification》的得出)。
上述ConvNet输入是,k=1是灰度图,k=3是RGB三通道图。输入图的尺寸发生变化,则后面的卷积层的尺寸相应发生变化。预测的类别数目发生变化,相应的softmax层尺寸也发生变化。(这样说法是否正确?)但是无论如何,DeepID层是固定的160维,不发生改变。
这个卷积过程跟普通的卷积神经网络一样,每个卷积后面的相应函数式ReLU,这个是被实验证明了(在这篇文章中提到)比sigmoid函数的有更好的拟合能力。
3、 特征提取过程
首先对人脸图片标记5个点(5 faciallandmarks),包括两个眼睛,鼻尖(nose tip),和两个嘴角,然后以这5个点为中心对齐(alignment)。特征是从60张facepatches,提取出来的,这60张face patches包括10个不同的区域,3种尺度的灰度图或RGB图。下面一幅图显示了10个人脸区域,3种尺度。
一共训练60个ConvNets,每一个ConvNet提取两个160维的特征,即一个face patch和该face patch水平翻转后的相对应的face patch.好比一个人的左侧图和右侧图一样。最后DeepID共19200()维。
4、 第一部分的第二幅图的说明,Faceverification阶段
该部分的神经网络的输入是60组,即前面那60个ConvNets的输出,只是每一组变成了640维,这是因为要进行faceverification,当然得输入两张人脸图片,来判定这两张人脸图片是不是来自同一个人。每一张face patch包括做侧面和右侧面,320维,故每一组共640维。这里需要注意的是,从face patch学习到的毕竟是局部特征,将这些face patch组合起来再训练一个神经网络,这样从局部特征中学到一种全局性的特征。第一个隐藏层和这60组是局部连接的,这样做是迫使该隐藏层能够学习到该局部face patch压缩的特征表示,然后这个隐藏层和跟它节点数目相同的隐藏层进行全连接,以求学到全局特征。最后再接一个二分类器,来判定是否来自同一个人。隐藏层的相应也是用的ReLU,并且同时对所有隐藏层节点使用了dropout方式。使用dropout对于使用梯度法来训练网络是必须的,因为不用dropout而学习高维特征会带来梯度扩散(gradientdiffusion)问题。
5、 实验结果
大致来讲,作者是在CeleFaces上进行训练,然后再LFW上进行测试,因为LFW每个人含有的图片平均来将很少,只有85个人有超过15张的图片,4096个人只有一张图片。这对训练一个身份分类(identityclassifiers)是不够的。同时作者在开头也提到DeepID的推广能力会随着在训练阶段有更多的类别而增强(The generalizationcapability of DeepID increases as more face classes are to be predicted attraining)。