基于图像的人群计数研究(论文阅读笔记)
一、人群计数研究的问题
人群计数旨在估计图像或视频中人群的数量、密度或分布,属于目标计数领域中的一类,既是智能视频监控分析领域的关键问题和研究热点,也是后续行为分析、拥塞分析、异常检测和事件检测等高级视频处理任务的基础。
二、人群计数研究的发展
1 传统的
通过传统的计算机视觉方法提取行人特征,然后通过目标检测或回归的方式获取图像或视频中人群的数量。无法从图像中提取更抽象的有助于完成人群计数任务的语义特征,使得面对背景复杂、人群密集、遮挡严重的场景时,计数精度无法满足实际需求,具有一定的局限性。
2 基于深度学习的
2.1 基于CNN的人群计数
可以分为两类:直接回归计数法和密度图估计法
/ | 直接回归计数法 | 密度图估计法 |
---|---|---|
步骤 | input(图片)——>outout(人数) | input(图片)——>output(密度图)——>估计人数 |
适用性 | 人群稀疏场景 | 取决于密度图的质量 |
提升密度图质量的方法:引入新的损失函数来提高密度图的清晰度和准确度。无论采用哪种方法,都需要先进行特征提取。为了提升特征的鲁棒性,常使用多尺度预测、上下文感知、 空洞卷积、可形变卷积等方法改进特征提取过程,以增强特征的判别能力。
2.2 网络模型
可分为:单分支结构、多分支结构和特殊结构
a 单分支结构
早期基于 CNN 的人群计数网络均为只包含一条数据通路的单分支网络结构。
如Wang[1] 等人最先将CNN 引入人群计数领域(15年提出),提出了一种适用于密集人群场景的端到端 CNN 回归模型。该模型对AlexNet网络[2](12年提出)进行改进,将最后的全连接层替换为单神经元层,直接预测人群数量。
[1] Wang Chuan, Zhang Hua, Yang Liang, et al. Deep people counting in extremely dense crowds [C] // Proc of the 23rd ACM Int Conf on Multimedia. New York: ACM, 2015: 1299-1302
[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [C] // Proc of the 25th Int Conf on Neural Information Processing systems. Cambridge, MA: MIT Press,2012: 1097-1105
Zhang 等人[3]提出了一种基于 AlexNet 的跨场景计数模型 Crowd CNN,首次尝试输出人群密度图。算法会根据目标场景特点,选择相似场景对计数模型进行微调(fine-tuning),如图 1(b)所示,以达到跨场景计数的目的。为了提升计数准确性,作者还提出了透视图(perspective map)的概念,如图 2(a)所示,颜色越红代表目标尺度越大.然后,通过密度图和透视图的融合,如图 2(b)所示,降低透视形变(perspective distortion)的不良影响,提升密度图质量。
[3] Zhang Cong, Li Hongsheng, Wang Xiaogang, et al. Cross-scene crowd counting via deep convolutional neural networks [C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 833-841.
b 多分支结构
多分支结构的提出是为了解决人群计数场景中存在的多尺度问题。
- 如Boominathan 等人[4]基于CNN 提出了一种双分支结构计数网络 CrowdNet,通过一个浅层网络(shallow network)和一个深层网络(deep network)分别提取不同尺度的特征信息进行融合来预测人群密度图,以适应人群的非均匀缩放和视角的变化,有利于不同场景不同尺度的人群计数。
[4] Boominathan L, Kruthiventi S S S, Babu R V, et al. CrowdNet: A deep convolutional network for dense crowd counting [C] // Proc of the 24th ACM Int Conf on Multimedia. New York: ACM, 2016: 640-644
- 受多分支神经网络[5]的启发,Zhang 等