该论文主要贡献:
- 在准确度和模型大小之间平衡出一个精简的FER模型,为嵌入式设备提供了性价比较好的模型参考方案
- 在两个标准数据集上验证提出的方法是优于当前最好的方法
- 收集了三个不同场景的数据集用于验证模型在多场景的性能
- 提出了一种光照增强策略,能够减轻在结合不同数据集的数据上训练的过拟合问题
传统的FER方法采用手工特征如LBP、BoW、HoG、SIFT,也在一些数据集上取得了不错的效果。基于序列的方法是通过从视频中手工提取的特征来对表情变化进行建模。由于在真实环境中,光照和姿势是多种多样的,这为传统方法带来了挑战。本文使用一个较为合适的CNN架构来解决这一问题。
1.模型框架:
首先通过IntraFace检测出的人脸关键点进行裁剪,然后将其resize成120x120,最后将其96x96的中心区域作为卷积网络的输入进行预测。
2.网络结构:
该网络使用较大的5x5的卷积核,且深度较