论文学习 LFFD: A Light and Fast Face Detector for Edge Devices

本文链接：https://blog.csdn.net/yangjf91/article/details/108833982

介绍了一种轻量级快速人脸检测器LFFD，该检测器采用多尺度检测网络结构，解决了基于Anchors方法存在的问题。网络设计考虑了部署效率，使用3x3卷积核，并分为四部分进行不同尺度的人脸检测。引入了RF概念作为Anchor的替代方案，以减少样本不均衡和冗余计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文要点

多尺度检测网络，各分支只关心自己负责的尺度范围；
网络设计以部署平台运行效率为目标，使用优化效果最高的结构设计网络；
Anchor类方法有离散、样本不均、依靠经验等问题，提出使用RF的Anchor-Free方法。

主要内容

基于Anchors的方法存在问题

Anchor很难充分覆盖所有尺寸的人脸；
IOU阈值需要靠经验选取；
Anchor数量与尺寸全靠经验，容易导致样本不平衡和冗余计算。

RF 和 ERF

Feature map中每一个点都对应一个感受野（RF），处于感受野越靠近中心位置的像素对结构影响越大；越小的人脸越需要更多的上下文信息，有效感受野（ERF）也就需要覆盖更多的context information(大的人脸能直接判别，但小的人脸需要借助脖子、肩膀等上下文信息来判断)；感受野可以复用为Anchor。

模型结构

模型结构主干网络使用当前主流部署工具优化性能最高的3x3卷积核，通过降维分割为tiny、small、medium、large四个部分，分别取2、2、1、3共8路检测分支，每个分支通过1x1卷积核从主干网络中导出。由于测试BN层会减慢约17%，因此网络中不包含BN层。

网络结构

根据网上大家的解读，RF的计算公式为：
$RF_i=RF_{i-1}+(k-1)*stride$
以下为根据这个公式的计算结果，不一定正确。由于训练的图像最大为640x640子图，所以RF的最大尺寸达到639。
$55 = 35 + （ 6 - 1 ） * 4$
$71 = 55 + （ 5 - 1 ） * 4$
$111 = 71 + （ 6 - 1 ） * 8$
$143 = 111 + （ 5 - 1 ） * 8$
$223 = 143 + （ 6 - 1 ） * 16$
$383 = 223 + （ 6 - 1 ） * 32$
$511 = 383 + （ 5 - 1 ） * 32$
$639 = 511 + （ 5 - 1 ） * 32$
尺度计算

损失函数

损失函数包含分类交叉熵、回归L2，其中分类损失计算时设定各分支只检测自己尺度范围内的人脸，主要为对下边界0.9-1、上边界1-1.1系数范围内设定gray scales，剩下的划分为positive/negative。

数据预处理

WIDER FACE数据集中的12880张图像，150000张验证集人脸，丢弃少于10x10像素的人脸（网络设计中能检测到的最小人脸为10x10）。输入图像先减127.5，再除以127.5.

数据增广方法包括：

Color Distort 增加光噪声、更改亮度对比度等；
Random Sampling 随机选择一个图像、一个人脸，选择某个区间内大小的人脸进行整体缩放，并以选择的人脸为中心截取一个640*640的子图，将超出的区域填充黑色。同时通过随机采样，保证不同分支输出人脸数相同、人脸被各分支采样的概率相同。
Randomly Horizontal Flip 以0.5的概率对子图进行随机翻转。

训练过程中，根据损失值对负样本排序，以正负样本1:10的比例选取排名靠前的负样本。