Abstract
1.单张图片、任意人群密度、任意视角
2.提出MCNN网络将图片映射到人群密度图
3.输入图片任意大小、任意分辨率,利用不同尺寸的感受野适应视角影响、图片任意分辨率。
4.基于几何自适应核计算密度图(改进密度图)
1.Introduction
Related work
别人的方法
1.较早的方法:帧间探测器detector,基于外表、运动特征
缺点:遮挡严重、人群密集不适用。
2.簇轨迹,基于跟踪视觉特征
KTL跟踪器+聚类;
缺点:不能计算静止人群。
3.基于特征回归:
主要步骤:1)前景分割;2)提取前景特征(面积特征、边缘特征、纹理特征);3)利用回归函数估计人群数。线性函数或分段线性函数是针对简单的模型,可以产生良好的性能。还有Ridge regression(RR)、Gaussian process regression(GPR)和神经网络(NN)。
4.针对静止图片的人群计数
【12】利用多信息源估算单张图片极其密集的人数,并提出UCF_CC_50数据集(50张图片标注64000人);【2】接着将来自多源信息,即兴趣点(SIFT)、傅里叶分析、小波分解、GLCM特征和低信任度探测仪;【28】利用预训练CNN提取的特征训练SVM。
5.近来Zhang【33】提出了针对不同场景的CNN方法。选择相似场景的图片微调网络。
缺点:训练集和测试集都需要透视图,而透视图是不易得到的。
自己的方法
面临的挑战:
1.前景分割不好,会影响人群计数。
2.遮挡严重,人群密度分布变化大,致使基于检测的方法效果不好。
3.人群尺度变化,我们使用的是不同尺寸大小的特征。由于不同的尺寸,很难人工标注特征,必须自动学习特征。
受【8】(用多列深度网络进行分类)启发,提出MCNN方法。他们的模型进行训练根据不同方法取得列数不同。我们是有三列,每列的卷积核不同大小。输入是一张图片,输出是对应的人群密度图,积分得到人数。
论文贡献:
- 三列中不同大小(大、中、小)感受野的滤波器解决不同尺度的人头大小和图片分辨率的问题。
- MCNN中我们用1*1卷积核的卷积层代替全连接层,使得输入图片是任意大小。
- 提出Shanghaitech数据集,因为已有的数据集不满足不同场景的要求。(大约1200张图片,33万人有标签)。数据集包含两部分Part A and Part B,其中Part A是从网上找的&#