PFLD 论文理解(二)

最新推荐文章于 2023-08-22 21:47:00 发布

米小凡

最新推荐文章于 2023-08-22 21:47:00 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/xiaomifanhxx/article/details/96830259

版权

PFLD(practical facial landmark detector)这篇论文主要是解决了在移动端等应用人脸关键点识别速度慢、准确率低的问题。

人脸关键点检测面临的四大挑战:

(1)local variation:expression(表情)、local extreme lighting(强光照)、occlusion(遮挡)等会影响局部信息变量，导致检测出错。

(2)global variation:pose(行为)、image quality(图片质量)等会影响人脸全局信息，未能准确评估建立几何模型

(3)Data Imbalance:class/attribution front face要占绝大多数，类别会严重不平衡，缺少遮挡、模糊等类别图像；attribution，正常的表情占绝大多数，对于高兴、惊吓等不常规表情，类别会严重不平衡

(4)model size/compution requirement :模型大小以及计算量，由于部署在移动端，给予的计算能力较弱，因此模型越小同时计算量越小，才能更好的部署在移动端。

同时相对于局部信息，全局信息即几何模型的建立对人脸关键点检测影响更大。

PFLD论文提出了通过估计全局的几何模型，来规范关键点的定位。创新点分为2个:

(1)为了减少label imbalance的影响，提出了一个balance_label的方法：rare的sample相对于多的sample惩罚项增大。由于摄像头拍出来的是二维图片，在三维图片向二维图片转移的时候，固有距离不相等(如两眼之间距离)，因此整合几何信息，引入了惩罚项，全局几何状态，3D位姿有效的决定了预测模式。

m代表的是m个samples，n代表的有n个关键点信息，dmn是代表的预测关键点与gt的l2距离，rn的代表着对不同距离的惩罚项。

角度:K=3，代表的是旋转角、俯仰角以及旋转角的偏差角度(偏差越小，loss的影响越小),wcn代表的是每一类置信度的倒数，来做label_balance,类别通常为：profile-face, frontal-face, head-up, head-down, expression, and occlusion，即label相差越大，其loss越大，比例越大(??),,其中dmn使用过backbone来获得的loss，角度是通过auxiliary net获得的。

角度获得的方法：通过一个auxiliary net来获取对应的角度，那么我们是不是就需要真正的角度呢，真正的角度怎么计算？是通过一个标准化的正常人脸与当前人脸计算得到的一个角度嘛？这样可以做一个类似多分支训练。