1.文章信息
这是一篇2018年存档于arxiv,2019年被International Conference on ImageProcessing接受的一篇关于人群检测与计数的文章,文章的题目为《FCHD: A fast and accurate head detector》
2.文章摘要
本文提出了一个FCHD-Fully卷积头部检测器,这是一种端到端的可训练的头部检测模型,运行速度位每秒5帧,AP为0.70。在一个普通GPU上,现在的头部检测技术已经避免使用anchor作为检测的起点,尤其是针对于野外的检测场景。原因是在小目标检测的场景下,基于anchor的技术性能较差。作者通过基于隐藏层的接受域大小精心设计anchor的尺寸来使得模型获得良好的平均精度。
本篇文章的贡献点在两个方面:
1)提出了一个简单的基于完全卷积anchor的,端到端可训练,推理时间短的模型
2)精心选择anchor的尺寸是获得良好AP的关键,模型在具有挑战性的数据集(BRAINWASH)上取得了比其他许多baseline更客观的结果。除了准确性外,模型在所有baseline中的运行时间最少,并且对硬件的要求比较地低,使得其可以更好的部署在监控应用程序中
此外,代码已经开源,下载链接如下:
https://github.com/aditya-vora/FCHD-Fully-Convolutional-Head-Detector
3.数据集
选取来自BRAINWASH数据集里的10461张照片对模型进行训练,每张图片的大小为640*480,每一幅图像都经过预处理,在每个epoch之后,选取统一数据集里的493张图片来验证模型
4.模型部分
模型架构
利用一个已经存在的预先训练的模型VGG16作为架构的基础模型,去掉继conv5层之后的最后几层,并使用剩下的权重作为新训练的起点,系统架构如下图所示
其中,第一个卷积层是对从前一层获得的信息进行编码。第二个卷积层是regression head负责预测定位坐标。第三个卷积层是classification head负责预测一个head的概率分数
Anchor尺寸的设计
Anchor是一组预定义的bounding box,首次在Faster-RCNN中引用,然而不同于Faster-RCNN不同高宽比和数量,本模型采用
只一个高宽比即1:1和两个尺寸的anchor分别为32*32和64*64。比例的选择是方形是出于考虑到head的比例适合1:1的anchor,大小的选择是考虑到头部在应用场景中通常都是尺寸较小的远距离的
Faster-RCNN和本模型的anchor对比如下图所示
其中
红框:输入图像228*228上conv5层的接受域
绿框:在FasterRCNN中使用的anchor尺寸,分别为128*128、256*256、512*512
蓝框:本文模型使用的anchor尺寸,分别为32*32和64*64
可以看到,相比之下蓝色anchor有更好的机会给出准确的头部位置
给训练anchor分配二进制标签的方法如下
1)对IoU≥0.7且ground-truth为正得的anchor进行标记
2)赋予与ground-truth的IoU最大的anchor一个positivelabel
模型训练
图像的输入分辨率为640*480,对于每个anchor,网络将以尺度的形式预测4个回归坐标,并移动anchor以准确定位头部
超参数设置
用SGD调整整个模型,训练学习率设置为0.001,训练模型15个epoch,迭代次数接近16万。在完成8个epoch之后,以0.1为刻度衰减学习率
5.实验部分
在包含484张图像的BRAINWASH数据集上测试模型。将本模型的precision-recall curve与其他baseline的进行比较,如下图所示
本文模型的精度与其他baseline的比较如下表所示
可以看到本模型精度高于其他三种baseline
在分辨率为640*480、不同GPU的情况下本模型与ReInspect的运行速度对比如下表所示
为了得到不同anchor对实验精度的影响,使用3个anchor进行实验,得到的最终精度结果对比如下
可以看到,本文设置的anchor效果还是比较好的
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!