论文学习 LFFD: A Light and Fast Face Detector for Edge Devices

论文要点

  • 多尺度检测网络,各分支只关心自己负责的尺度范围;
  • 网络设计以部署平台运行效率为目标,使用优化效果最高的结构设计网络;
  • Anchor类方法有离散、样本不均、依靠经验等问题,提出使用RF的Anchor-Free方法。

主要内容

基于Anchors的方法存在问题

  1. Anchor很难充分覆盖所有尺寸的人脸;
  2. IOU阈值需要靠经验选取;
  3. Anchor数量与尺寸全靠经验,容易导致样本不平衡和冗余计算。
    序言总结

RF 和 ERF

  Feature map中每一个点都对应一个感受野(RF),处于感受野越靠近中心位置的像素对结构影响越大;越小的人脸越需要更多的上下文信息,有效感受野(ERF)也就需要覆盖更多的context information(大的人脸能直接判别,但小的人脸需要借助脖子、肩膀等上下文信息来判断);感受野可以复用为Anchor。

感受野

模型结构

  模型结构主干网络使用当前主流部署工具优化性能最高的3x3卷积核,通过降维分割为tiny、small、medium、large四个部分,分别取2、2、1、3共8路检测分支,每个分支通过1x1卷积核从主干网络中导出。由于测试BN层会减慢约17%,因此网络中不包含BN层。

网络结构

  根据网上大家的解读,RF的计算公式为:
R F i = R F i − 1 + ( k − 1 ) ∗ s t r i d e RF_i=RF_{i-1}+(k-1)*stride RFi=RFi1+(k1)stride
  以下为根据这个公式的计算结果,不一定正确。由于训练的图像最大为640x640子图,所以RF的最大尺寸达到639。
   55 = 35 + ( 6 − 1 ) ∗ 4 55=35+(6-1)*4 55=35+614
   71 = 55 + ( 5 − 1 ) ∗ 4 71=55+(5-1)*4 71=55+514
   111 = 71 + ( 6 − 1 ) ∗ 8 111=71+(6-1)*8 111=71+618
   143 = 111 + ( 5 − 1 ) ∗ 8 143=111+(5-1)*8 143=111+518
   223 = 143 + ( 6 − 1 ) ∗ 16 223=143+(6-1)*16 223=143+6116
   383 = 223 + ( 6 − 1 ) ∗ 32 383=223+(6-1)*32 383=223+6132
   511 = 383 + ( 5 − 1 ) ∗ 32 511=383+(5-1)*32 511=383+5132
   639 = 511 + ( 5 − 1 ) ∗ 32 639=511+(5-1)*32 639=511+5132
尺度计算

损失函数

  损失函数包含分类交叉熵、回归L2,其中分类损失计算时设定各分支只检测自己尺度范围内的人脸,主要为对下边界0.9-1、上边界1-1.1系数范围内设定gray scales,剩下的划分为positive/negative。

gray scales

数据预处理

  WIDER FACE数据集中的12880张图像,150000张验证集人脸,丢弃少于10x10像素的人脸(网络设计中能检测到的最小人脸为10x10)。输入图像先减127.5,再除以127.5.

  数据增广方法包括:

  • Color Distort 增加光噪声、更改亮度对比度等;
  • Random Sampling 随机选择一个图像、一个人脸,选择某个区间内大小的人脸进行整体缩放,并以选择的人脸为中心截取一个640*640的子图,将超出的区域填充黑色。同时通过随机采样,保证不同分支输出人脸数相同、人脸被各分支采样的概率相同。
  • Randomly Horizontal Flip 以0.5的概率对子图进行随机翻转。

  训练过程中,根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。

训练参数

参数设定值
初始化方法Xavier
OptimizationSgd
Momentum0.9
Weight decay0
Batchsize32
Lr0.1
Iteration1500000
衰减策略600000/1000000/1200000/1400000

评估方法

  SIO【Single Inference on the Original】以原图输入运行一次,而不进行多尺度变化 ,对SSH这种有trick的影响较大。

  多平台测试,TITAN Xp、TX2、RaspberryPi3。

  参数量与推理耗时的关系对比: E n e t = F L O P s / t E_{net}=FLOPs/t Enet=FLOPs/t

参考链接

  论文地址

  人脸识别论文阅读笔记1 – CVPR2019-LFFD

  LFFD A Light and Fast Face Detector for Edge Devices论文阅读笔记

  [论文理解] LFFD: A Light and Fast Face Detector for Edge Devices

  

  

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值