Occlusion Aware Facial Expression RecognitionUsing CNN With Attention Mechanism阅读笔记

在这里插入图片描述
论文链接:https://ieeexplore.ieee.org/document/8576656
代码链接:https://github.com/mysee1989/PG-CNN

主要目的

通过注意力机制的方式解决遮挡情况下的人脸表情识别

文章主要贡献

1)提出了一种带有注意机制的卷积神经网络(ACNN)来识别有部分被遮挡的面部表情。 ACNN 可以自动感知面部的遮挡区域,并专注于信息量最大且未被遮挡的区域;在各个数据集(实验室条件下和真实环境中)取得了最优结果;
2)提出了(FED-RO)数据集,是第一个专注于真实环境下面部遮挡的数据集。

网络结构

在这里插入图片描述
在这里插入图片描述

两张图放在一起看,看得比较清晰。
1)输入图像,经过VGG16得到512x28x28的feature map(特征图1)
2)在特征图1上裁剪得到24个大小为512x6x6的patch,裁剪的依据是根据原图像上的24个点,后续介绍;
3)每个patch经过各自的PG-Unit,这些图2画得很清楚,最后得到1x64的特征,图2中红色的64是我看源码后自己加上去的;
4)特征图1继续输入到GG-Unit,这些图2画得很清楚,最后得到1x512的特征,图2中红色的512是我看源码后自己加上去的;
5)最后得到24x64+512=2048的特征,再经过2层FC然后softmax输出。

其中,
1)每个patch相当于图像的局部,经过一个attention得到这个patch的重要性(或者叫遮挡程度)。所以24个patch相当于24个图像局部的注意力,判断图像局部区域的重要性,即局部区域被遮挡的严重与否;
2)GG-Unit相当于全局的判断,所以只有一个。

patch的裁剪

网络中裁剪的24个patch是由原图像中的24个点得来的。
在这里插入图片描述
在这里插入图片描述

1)从68个人脸关键点中选取编号为19、22、23、26、39、37、44、46、28、30、49、51、53、55、59、57一共16个点;
2)为了眉毛和眼睛上增加信息点。
作者额外为每支眉毛、眼睛加上一个点对,共4个点对,如图(a)中的红色。每个点对求中心点(即2点间的中心)得到一共4个点,如图(c)。正好每个眉毛、眼睛各一个点;
3)为了在脸颊上增加信息点。
选择索引为(18, 59), (27, 57)的这4个关键点,按照括号的分组求得中点,得到2个信息点,如图(d)中的黄色框线的点;
4)还是为了增加脸颊的信息点。
选择两个嘴角的关键点(应该是49和55),分别计算得到(Xleft-16,Yleft-16)和(Xright+16,Yright-16)的2个信息点,如图(d)中的黑色框线的点;
5)最终得到16+4+2+2=24个信息点,如图(f)所示。

每个patch就是以这24个点为中心点所裁剪的。

另:
信息点错位了怎么办?即信息点检测不准确怎么办?
1)作者用[33] J. Zhang, M. Kan, S. Shan, and X. Chen, “Occlusion-free face alignment:Deep regression networks coupled with de-corrupt autoencoders,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 3428–3437. 的方法在一定程度上对面部遮挡具有鲁棒性;
2)即使信息点不准确,但是patch的裁剪对其也不敏感。因为是在原图大小的1/8的特征图上裁剪patch,并不是在原图上裁剪,所以原图 8 像素错位只会在相关提取的补丁上引起 1 步偏差。

实验效果

作者做了大量实验,包括消融分析。就不贴图了。

FED-RO数据集

这个数据集是作者提出来的,本博客开头的源码链接中作者提供了百度网盘下载地址。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值