1.文章简介
本次介绍的文章是一篇2021年发表在Knowledge andInformation Systems的文章,文章题目为《Metropassengers counting and density estimation via dilated-transposedfully convolutional neural network》,与公众号在今年7月15日发过的题目为基于卷积神经网络的地铁站台人群统计的文章有共同作者,来自郑州大学。
2.摘要
地铁客流统计和密度估算是交通调度和风险防范的关键。虽然深度学习在乘客计数方面取得了很大的成功,但现有的方法大多忽略了基本的外观信息,导致密度图质量较低。
为了解决这一问题,文章提出了一种新的计数方法“扩张转置完全卷积神经网络”(DT-CNN),该方法结合了特征提取模块(FEM)和特征恢复模块(FRM),在高度拥挤的地铁场景中生成高质量的密度图并准确估计乘客数量。FEM由一个CNN组成,一组扩展卷积层提取与包含拥挤物体场景相关的二维特征。然后,将有限元法生成的密度图进行FRM处理,学习潜在特征,并将其用于特征图像素的恢复。DT-CNN是端到端可训练的,独立于骨干全卷积网络架构。
此外,文章还引入了一个新的地铁乘客计数数据集(Zhengzhou_MT++),该数据集包含396张图片和3978条注释。在自建数据集和三个具有代表性的人群计数数据集上进行的大量实验表明,该方法在计数精度和密度图质量方面优于其他先进方法。
3.介绍
乘客计数,即乘客密度估计,是指在静止图像或监控视频中自动估计乘客数量。随着人口增长和城市化进程的加快,越来越多的人使用地铁进行日常出行。由于对地铁服务的需求如此巨大,随之而来的是与危险情况相关的更高风险,如大量客流(如踩踏)。因此,全面、实时的客流密度信息对城市交通运营的客流组织、车站管理、交通调度、风险防控等具有重要意义。
然而,乘客计数任务面临着一系列的挑战,如严重的遮挡、不均匀的密度、扭曲的视角和密度水平的剧烈变化,有学者针对这些问题进行了一系列研究。近年来,基于密度图的人群统计方法被证明比传统方法在大规模人群统计中更有效,因为密度图在拥挤地区保留了更多的空间分布信息。现有研究生成的密度图质量不足以达到要求。高质量的密度图不仅可以清晰地反映拥挤的地铁车厢中乘客的分布,而且对计数结果的贡献也很大,如下图所示。
此外,分布图可以产生更准确和全面的信息,这对于地铁列车调度员在高风险环境下做出正确的决策是至关重要的。因此,本文着重设计一个卷积神经网络(CNN),可以产生高质量的密度地图。为此提出了一种新的方法名为扩张转置完全卷积神经网络(DT-CNN),该方法支持柔性分辨率的输入图像。完全卷积网络(FCNs)的可行性已经在语义分割和显著性预测任务中得到了证明,显著提高了检测精度。DT-CNN由特征提取模块(FEM)和特征恢复模块(FRM)组成。本文部署VGG-16的前10层作为FEM,并使用扩张卷积层对该模块进行深化,以提取更深的特征并在不降低分辨率的情况下扩大接收域。与以前的方法不同,文章没有使用双线性插值算法进行上采样,而是使用可学习的转置卷积。更具体地说,FRM由一组卷积和转置卷积组成,以生成高分辨率和高质量的密度图,其大小与输入图像完全相同。通过这种方法,该模型可以避免图像降采样和重构过程中常见的细节损失和视觉失真。
在过去的几十年里,提出各种计算机视觉方法处理人群计数任务。总的来说,这些方法主要可以分为两类:传统方法和基于cnn的方法。传统的特征提取方法主要以手工方法为主,可分为三类:基于检测的方法、基于回归的方法和手工方法。然而,这些方法存在不适用极端密集人群,忽略了空间信息,无法生成高质量的密度图等问题。深度模型在计算机视觉任务中取得了一系列成功,如分类和识别。通过引入CNN,可以更直接、更容易地构建局部斑块特征与相应对象密度图之间的端到端映射。
4.模型
DT-CNN的目标是通过使用FEM和FRM生成具有高像素级密度估计的密度图来提高计数性能。将输入图像发送到FEM进行二维特征提取,由FRM输出最终的密度图,使特征图恢复到原始大小。值得注意的是,DT-CNN的整体架构是一个FCN,因此它可以将任意大小的人群图像作为输入,以避免失真。DT-CNN的架构如下图。
A. 特征提取模块
设计了FEM来提取与拥挤的人类对象相关的可靠特征,同时能够以像素级精度定位这些特征。FEM实际上是VGG-16与扩张卷积相适应。文章选择VGG-16作为FEM的主干,因为它在人群统计方面表现出色。虽然VGG网络最初是为对象分类而提出的,但其强大的泛化能力已被广泛应用于许多深度学习任务,如语义分割、超分辨率等。VGG网络的贡献是用更大的内核替换更少的层,用更小的内核替换更多的卷积层。其主要目的是在接收域相同的条件下,提高网络的深度,同时比较大的滤波器所需的计算量少得多。VGG-16包含16个隐藏层(13个卷积层和3个全连接层)和5个max-pool层,每个层的步长为2。
在本文中,为了构建一个接受任意大小输入的网络,去掉了VGG-16的全连接层,并在VGG-16中构建了采用全卷积层的DT-CNN。文章保留了VGG-16的前10个卷积层,只保留了3个max pooling层,这意味着输入图像将减少8倍(即每个max pooling层将feature map缩小到原来大小的一半),如下图所示。
虽然叠加更多的卷积层和池化层(即VGG-16中的基本组成部分)可以提取深层特征信息并扩大接收域,但输出的尺寸会进一步减小,从而难以生成高质量的密度图。文章部署了扩展的卷积层来深化网络和扩展接受域,同时保持输出分辨率。扩张卷积层已经在分割任务中得到证明,可以显著提高准确率,是池化层的理想替代方案。Pooling layer(如max和average Pooling)被广泛用于扩展感受域和控制过拟合,但它们也会极大地降低空间分辨率,即丢失feature map的空间信息。二维扩张卷积可以定义为
其中是输入和滤波器展开卷积的输出,它们的长度和宽度分别为和。如果膨胀率,则膨胀卷积(上图b)转化为正常卷积(上图a)。在扩张卷积中,一个带有滤波器的小尺寸核通过扩张漫游者被放大到。因此,它允许在多个尺度上灵活地聚合上下文信息,同时保持相同的分辨率。用直接卷积来模拟扩张卷积首先通过插入0(或空行)来展开卷积核,如上图b所示。扩展卷积使用稀疏内核在池化层和卷积层之间交替。这种特性在不增加参数数量和计算量的情况下扩大了接收字段,因为添加更多的卷积层可以使接收字段更大,但会引入更多的操作。因此,本文采用速率为2的3个扩张卷积层来加深网络。
B. 特性恢复模块
由于FEM的三个最大池化层,输出特征图的分辨率较低,与ground truth图像相比包含的细节较少。受SANet和DENet的启发,文章设计了一个包含转置卷积层的FRM来恢复细节,并获得高分辨率密度地图,用于像素级预测。与扩张卷积不同,转置卷积将零插入feature map,而不是输入kernel,如上图c所示。文章没有使用双线性插值算法进行上采样,而是使用可学习的转置卷积。转置卷积不同于双线性插值,它有可以学习的参数,这意味着它可以学习更多的特征信息。通过这种方法,DT-CNN能够生成与输入图像大小相同的高分辨率密度地图,在训练模型时提供更精细的空间信息,便于特征学习。在这个模块中,在三个转置卷积层之前添加一个3×3卷积层。这些转置卷积层将特征图像放大8倍,使其恢复到原来的大小(即,每个转置卷积层将特征地图的大小增加2倍)。最后,使用1×1卷积层估计每个位置的密度值。
C. 生成Ground truth
将手动标记的图像转换为密度图的方法为,如果在标记的人群图像中像素处有一个点,则可以用来表示,并用高斯核归一化为1进行模糊,并应用几何自适应内核来处理高度拥挤的场景。因此,ground truth密度图定义为
其中为k-最近的头部标注的平均距离,为加权超参数。在实验中,设置β=0.3, k=3。密度图的积分等于图像中的人群数。这里,表示人群数量,定义如下
其中,是生成的密度图中位于的像素,和分别是密度图的长度和宽度。
D. 损失优化
用欧氏距离测量ground truth与估计密度图之间的差异。损失函数如下
其中F是ground truth密度DT-CNN生成的图,虽然是输入图像的ground truth,θ是一组可学的参数提出DT-CNN, N是训练批量的大小,和L是ground truth和估计密度图之间的损失。
5.实验
文章提出的模型更小,更准确,更容易训练和部署。首先介绍文章进行实验使用的基准数据集和评估指标。在地铁客流量数据集上的实验结果表明,该方法可以有效地用于地铁客流量统计。最后,为了证明方法可以应用于多个场景,使用三个标准的人群计数数据集将文章方法与现有方法进行了比较。
A. 数据集和实现细节
使用了自己建立的Zhengzhou_MT & ++两个数据集和ShanghaiTech、UCF-QNRF、UCF_CC_50数据集。实现基于pytorch,Batch大小为1的NVIDIA RTX2080Ti GPU上进行了实验。端到端训练DT-CNN。第一个10卷积层由VGG-16调整。使用Adam优化器以的小学习率来训练模型。所有的实验epoch都为500。
B. 评价指标
用平均绝对误差(MAE)和平均平方误差(MSE)来评价所提出的方法。此外,分别采用峰值信噪比(PSNR)和图像结构相似度(SSIM)来评估预测密度图的质量。SSIM取值范围为−1到1。较高的PSNR和SSIM值表明密度图质量较高。
C. 实验结果
下图从左到右:应用MCNN、CSRNet、MPCNet和DT-CNN对郑州_mt ++数据集生成的输入图像、ground truth和density图
不同方法在郑州mt和郑州mt ++数据集上的性能对比如下表
下图为文章的方法和MCNN, CSRNet和MPCNet在不同密度水平下的估计误差。x轴为人群密度水平,Y轴为每个水平的总估计误差。
将方法应用于ShanghaiTech数据集的CSRNet得到的结果比较如下图。
下图从左到右:将DT-CNN应用于SHTA、SHTB、UCF-QNRF和UCF_CC_50数据集生成的密度图。第二行显示ground truth密度图,第三行显示文章估计的图。
可以看出,文章的方法生成的密度图更接近于真实图像中的人群分布。
6.结论
本文提出了一种全新的端到端结构DT-CNN,该结构由FEM和FRM组成,用于地铁乘客计数和高质量密度图生成。有限元法由一个具有扩张卷积的VGG-16网络组成。基于转置卷积的FRM可以将特征图恢复到原始大小。此外,还提出了一个新的数据集zhengzhou_mt++,它是现有地铁乘客统计数据集Zhengzhou_MT的加强型。基于这两个数据集,将模型与一些最先进的人群计数方法进行了比较,应用于三个公共人群统计数据集,证明了模型的有效性,表明模型良好的性能。
未来工作方向:探索相关的主题,如将提出的网络架构与注意机制相结合,多尺度分析模块和基于场景适应的视频人群计数。
7.Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!