【论文阅读笔记】《S3FD:Single Shot Scale-invariant Face Detector》

最新推荐文章于 2024-09-17 16:52:57 发布

改个名字真不容易�

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量194

点赞数

文章标签：人工智能人脸检测人脸对齐人脸识别

本文链接：https://blog.csdn.net/weixin_44010117/article/details/107213211

版权

《S3FD:Single Shot Scale-invariant Face Detector》

Zhang S, Zhu X, Lei Z, et al. S3fd: Single shot scale-invariant face detector[C]//Proceedings of the IEEE International Conference on Computer Vison

This paper is Inspired by faster-RCnn and SSD.

网络结构如下：

创新点：

1.scale-equitable architecture

扩大anchor-associated layer 的范围

将prediction convolutional layers 的stride size 的范围扩大到4-128，将anchors的scale范围扩大到16-512 pixels。

网络的关键参数的设置情况如下所示：

anchor的scale的设置遵守以下两条准则：

①：Effective receptive ﬁeld

将anchor 的大小设置为卷积核有效感受野的大小。

②：Equal-proportion interval principle:

将anchor 的scale设置为4*stride，保证不同scale的anchor在input image 中的分布密度相同，保证与不同尺度的face的金标准bounding box 所match的anchor的数量大体相同。

2.Scale compensation anchor matching strategy

anchor的scale是离散的，但是face的尺度却是连续的，这会导致处于相邻两个anchor's scale 之间的face不能匹配到足够多的anchor，并且比较小的face也不能匹配到足够多的anchor，如图4（a）蓝色虚线所示，这导致处于这些scale的face不能被有效的学习及预测。

并且平均匹配到的anchor的个数为3，太少了。

与金标准bounding box 所匹配的anchor的个数与anchor的scale关系非常大。

为了解决这个问题，提出了尺度补偿 anchor 匹配策略，对匹配的anchor进行补偿，补偿方式如下所示：

补偿后，匹配数量与face的尺度的大小的关系如图4(a)红线所示。

3.Max-out back ground label

由于负样本的数量太多（99.8%），并且绝大部分来自于层次比较低的feature layer（75.02%），这些负样本会导致比较小scale 的face 的false positive 的概率比较大，所以为了降低false positive 的概率，在conv3_3层后使用多个conv filter 输出多个背景概率，并对这多个背景预测filter后添加一个maxout层，

我理解为，背景信息十分负杂，使用一个conv_filter 不足以捕捉背景的信息，使用多个filter对背景信息进行捕捉，即将背景分为多个类进行学习，使用最高的概率作为输出，即此patch 属于哪个背景的概率最大，无论属于哪一类背景，均是背景，只有一个标签，因此将其经过maxout层后再输出，对maxout 的输出对应的filter进行训练，可有效捕捉不同类别的背景的信息，这可使网络对背景的识别率提高。由于75.02%的负样本来自于conv3_3，因此只对这层采取这个策略即可有效提升。

训练细节：

1.数据增强