《Deep Learning Face Representaion from Predicting 10000 Classes》读书报告

1、基本思想

训练多个深度卷积神经网络(deep ConvNets)对输入的人脸块(face patches)进行特征提取,然后训练每一个卷积神经网络(以下简称为ConvNet)的目标是对输入的face patch进行分类,这一步是有监督的训练,即每一个face patch对应于一个类别标签,每一个ConvNet 的输出节点数目是相同的,即160维。然后所有的这些ConvNets的输出(不是那个预测类别信息的输出,是该预测类别信息的前一层,即160)就是提取到的特征,称为

Deep hiddenidentity feature(DeepID),将这些特征连起来(concatenate),送入到Joint Bayesian或者再接一个神经网络,进行Faceverification.整个过程可用下面两幅图来说明(以用神经网络进行Faceverification为例)

 第一阶段,提取特征




第二阶段:Faceverification



2 网络结构=

一个ConvNet的结构如下:


   这是一个有4个卷积层(除第4个卷积层外0每一个卷积层后面接一个max-pooling)的网络。特别之处在于DeepID那一层和第4个卷积层以及第3个卷积层后面的max-pooling层全连接。作者解释说这样做的是因为第4层卷积层含有的神经元的个数太少,成为信息传递的瓶颈。这样做就是作者所谓的Multi-scaleConvNets. 4个卷积层提取到的特征是比第3max-pooling层更加具有全局性的特征。然后这个DeepID接一个softmax进行分类。这样提取到的特征是对类间具有很好的判别性的,相当于增加了类间的距离。(个人理解,从作者的另外一篇文章《DeepLearning Face Representation by Joint Identification-Verification》的得出)

    上述ConvNet输入是,k=1是灰度图,k=3RGB三通道图。输入图的尺寸发生变化,则后面的卷积层的尺寸相应发生变化。预测的类别数目发生变化,相应的softmax层尺寸也发生变化。(这样说法是否正确?)但是无论如何,DeepID层是固定的160维,不发生改变。


   这个卷积过程跟普通的卷积神经网络一样,每个卷积后面的相应函数式ReLU,这个是被实验证明了(在这篇文章中提到)比sigmoid函数的有更好的拟合能力。

3、 特征提取过程


    首先对人脸图片标记5个点(5 faciallandmarks),包括两个眼睛,鼻尖(nose tip),和两个嘴角,然后以这5个点为中心对齐(alignment)。特征是从60facepatches,提取出来的,这60face patches包括10个不同的区域,3种尺度的灰度图或RGB图。下面一幅图显示了10个人脸区域,3种尺度。



一共训练60ConvNets,每一个ConvNet提取两个160维的特征,即一个face patch和该face patch水平翻转后的相对应的face patch.好比一个人的左侧图和右侧图一样。最后DeepID19200()维。


4 第一部分的第二幅图的说明,Faceverification阶段


该部分的神经网络的输入是60组,即前面那60ConvNets的输出,只是每一组变成了640维,这是因为要进行faceverification,当然得输入两张人脸图片,来判定这两张人脸图片是不是来自同一个人。每一张face patch包括做侧面和右侧面,320维,故每一组共640维。这里需要注意的是,从face patch学习到的毕竟是局部特征,将这些face patch组合起来再训练一个神经网络,这样从局部特征中学到一种全局性的特征。第一个隐藏层和这60组是局部连接的,这样做是迫使该隐藏层能够学习到该局部face patch压缩的特征表示,然后这个隐藏层和跟它节点数目相同的隐藏层进行全连接,以求学到全局特征。最后再接一个二分类器,来判定是否来自同一个人。隐藏层的相应也是用的ReLU,并且同时对所有隐藏层节点使用了dropout方式。使用dropout对于使用梯度法来训练网络是必须的,因为不用dropout而学习高维特征会带来梯度扩散(gradientdiffusion)问题。


5 实验结果


   大致来讲,作者是在CeleFaces上进行训练,然后再LFW上进行测试,因为LFW每个人含有的图片平均来将很少,只有85个人有超过15张的图片,4096个人只有一张图片。这对训练一个身份分类(identityclassifiers)是不够的。同时作者在开头也提到DeepID的推广能力会随着在训练阶段有更多的类别而增强(The generalizationcapability of DeepID increases as more face classes are to be predicted attraining)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值