PFLD 论文理解(二)

    PFLD(practical facial landmark detector)这篇论文主要是解决了在移动端等应用人脸关键点识别速度慢、准确率低的问题。

    人脸关键点检测面临的四大挑战:

(1)local variation:expression(表情)、local extreme lighting(强光照)、occlusion(遮挡)等会影响局部信息变量,导致检测出错。

(2)global variation:pose(行为)、image quality(图片质量)等会影响人脸全局信息,未能准确评估建立几何模型

(3)Data Imbalance:class/attribution front face要占绝大多数,类别会严重不平衡,缺少遮挡、模糊等类别图像;attribution,正常的表情占绝大多数,对于高兴、惊吓等不常规表情,类别会严重不平衡

(4)model size/compution requirement :模型大小以及计算量,由于部署在移动端,给予的计算能力较弱,因此模型越小同时计算量越小,才能更好的部署在移动端。

同时相对于局部信息,全局信息即几何模型的建立对人脸关键点检测影响更大。

PFLD论文提出了通过估计全局的几何模型,来规范关键点的定位。创新点分为2个:

(1)为了减少label imbalance的影响,提出了一个balance_label的方法:rare的sample相对于多的sample惩罚项增大。由于摄像头拍出来的是二维图片,在三维图片向二维图片转移的时候,固有距离不相等(如两眼之间距离),因此整合几何信息,引入了惩罚项,全局几何状态,3D位姿有效的决定了预测模式。

m代表的是m个samples,n代表的有n个关键点信息,dmn是代表的预测关键点与gt的l2距离,rn的代表着对不同距离的惩罚项。

角度:K=3,代表的是旋转角、俯仰角以及旋转角的偏差角度(偏差越小,loss的影响越小),wcn代表的是每一类置信度的倒数,来做label_balance,类别通常为:profile-face, frontal-face, head-up, head-down, expression, and occlusion,即label相差越大,其loss越大,比例越大(??),,其中dmn使用过backbone来获得的loss,角度是通过auxiliary net获得的。

角度获得的方法:通过一个auxiliary net来获取对应的角度,那么我们是不是就需要真正的角度呢,真正的角度怎么计算?是通过一个标准化的正常人脸与当前人脸计算得到的一个角度嘛?这样可以做一个类似多分支训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值