(多任务+点监督)2022ICASSP:MULTISCALE CROWD COUNTING AND LOCALIZATION BY MULTITASK POINT SUPERVISION

摘要

我们提出了一种在统一框架下进行人群计数和人员定位的多任务方法。由于检测和定位任务是很相关的,可以联合处理,我们的模型受益于多任务解决方案,通过学习编码人群图像的多尺度表示,然后融合它们。与相对更流行的基于密度的方法相比,我们的模型使用点监督来允许人群位置被准确识别。我们在两个流行的人群计数数据集(ShanghaiTech A和B)上测试了我们的模型,并证明了我们的方法在计数和定位任务上都取得了强大的结果,在上海 A和B上,人群计数的MSE测量值分别为110.7和15.0,定位的AP测量值分别为0.71和0.75。我们详细的消融实验显示了我们的多尺度方法的影响,以及我们网络中嵌入的融合模块的有效性。

introduction

在本文中,我们提出使用多尺度点监督来提高在密集和稀疏人群场景下的人群计数性能。此外,我们采用多任务的方法,利用在中间层学习到的场景表示,可以同时进行定位。我们的方法不需要生成密度图,因此更适合处理人群场景中不同的稀疏度。
本文的贡献包括以下两个方面:
(1)提出了一种基于点监督的多尺度多任务构架,可以有效地估计出每幅图像中人的数量和位置的变化。
(2)在两个数据集上,我们的方法在计数和定位上都达到了最先进的结果。详细的消融实验证明了我们网络中每个组件的影响。

提出的方法

设P = {pi}M i=1为每个人i的头部坐标,其中pi= (xi, yi), M为图像中的总人数。我们的目标是通过点监督的多尺度统一神经框架估计M和P。我们提出的模型描述如下(见图1)。
图1图1

1.多尺度场景encoder

一个任意大小的图像I被馈送到三个基于vgg16的场景encoder,在ImageNet上预先训练。得到三个尺度下的表示,即S1=1/8, S2= 1/4, S3=1/2的原始图像大小。这样我们就得到了对应于三个各自尺度的三个独立的嵌入,这最终提高了我们的点监督网络对场景中人数变化较大的情况下准确估计M和P的能力。

2.特征膨胀

将多尺度场景表示传送到空洞卷积层。它们的作用是扩展感受野,捕捉更高层次的特征。具体地说,空洞cnn卷积层具有从原始图像中挖掘各种接受野大小的优点,而不会像下采样时增加卷积核大小那样降低分辨率。然而,在这些网络中,层数是不同的。为了在不同的管道规模之间实现一致的收敛,我们调整了不同分支的层数。

3.多尺度头部估计

每一个由空洞卷积层提取的embedding被馈送到一个单层,生成一个对场景中的头部位置的估计。这是通过一个单通道卷积网络实现的,该卷积网络由一个内核大小为1×1的卷积层组成。该结构可以提高整体定位结果的准确性,并为多任务网络生成输入,以支持精确的人群计数。每个尺度的这些embeddings的热图如图1所示。
为了获得估计的头部位置,我们需要在数据集中给出真实的头部点。然而,这些位置必须标准化,以便在不同的尺度上使用。对于每一个点,我们从头部位置提取头部坐标,并将x值和y值分别除以图像的宽度和高度,归一化在[0,1]范围内。然后,我们将标准化的头部位置乘以三个比例因子,以获得调整后的真实头部位置。

4.多尺度融合估计

这个模块生成最终的密度图,用于人群计数。该算法由三个卷积层数不同、步长为2、核大小为2的网络组成,每个卷积层分别作用于一种经过空洞卷积之后的embedding。第一个网络由一层组成,在S1上工作。类似地,第二和第三网络分别在s2和s3上工作,包括两层和三层。这些网络分别对规模S1、S2和S3的经过空洞卷积之后的embedding进行下采样,并在使用不同数量的卷积层时生成相同大小的输出。然后将这些输出按通道连接,并将其传送到卷积层,以生成S4= 1/16的最终密度图。

5.位置

由于s3的分辨率高于其他两个分支,因此可以更精确地从该分支提取头部位置。因此,我们利用这种embedding来进行定位,利用连接组件算法来获取场景中的blob(点)。斑点的中心代表人群图像中的头部位置。图1显示了检测到的斑点。

6.总loss

对于三个多尺度分支和多尺度融合网络,我们使用四个MSE损失项 Lj= ||Dj1− Dj||(上下两个2)。dj1和dj分别表示按尺度Sj估计的密度图(由该尺度的头部位置组成)和它的真实密度图。具体而言,dj表示尺度Sj的embedding。dj中的每个位置(Xsj&k, Ysj&k)显示了其原始坐标下的综合人数,例如,原始图像中的每个16 × 16像素块对应在经过了尺度S4处理后的embedding上的一个位置,那么(x,y)【0<=x<=15,y同理】上面的真实人头数会分配给dj的(0,0)。(这一部分我也没读懂…)理想情况下,不同尺度分支产生的所有结果应对应相同数量的人员。然而,这在实践中并不成立,因为网络的不同分支在检测不同大小的头部时会有不同的精度(可能是由于与摄像机的距离不同)。为了解决这一问题,我们在最终损失函数中使用任务特定权值Wj,得到在这里插入图片述

实验和结果

实验设备

数据集用的是上海A和B

1.实验细节:

使用Adam优化器,其动量为0.934,初始学习率为1E-6。对模型进行200个早期停止周期的训练,两个数据集的任务权重分别为w1= 0.1, w2= 0.2, w3= 0.3, w4= 0.1。训练是用英伟达泰坦RTX GPU。架构细节如图1所示,其中分别使用3、1和2的kernel size进行场景编码、头部估计和多尺度融合。除融合网络使用2步幅外,所有卷积层都使用1的步幅。

2.实验评估:

多尺度融合输出的总和对应场景中的总人数。计算了预测计数相对于GT(ground-truth)的平均绝对误差(MAE)和均方误差(MSE)。为了评价定位结果,我们使用平均精度(AP),即精度-召回曲线下的面积。如果检测到的头部距离GT头部位置在5像素以内,则该检测被标记为真,并从GT点中删除,以便它不会与未来评估中的任何其他预测相匹配。如果一个检测不在头部检测的这个距离内,它就被计算为假阳性,最后,如果一个地面真实的头部检测与任何检测都不匹配,那么它就被计算为假阴性。

实验结果

人群计数。将所提模型用于人群计数的性能与类似工作进行了比较,见表1。我们观察到,对于这两个数据集,多任务方法中辅助定位信息的训练有助于学习更有效和更精确的场景表示,因此我们的方法取得了更好的或有竞争力的结果。值得注意的是,在包含更多稀疏场景的上海B中,我们的点监督模型优于最近的基于密度的方法。可以归结为这样一个事实:在处理密度较大的场景时,没有明显识别单个头部的基于密度的方法通常更健壮。
在这里插入图片描述
定位的结果。检测头定位的评价结果如表1所示。我们观察到,我们的点监督模型在上海A和B提供了最好的结果。需要注意的是,我们表中[11]和[20]的值直接来自各自的论文,由于该领域缺乏标准定义,这两篇论文可能对真阳性检测使用了略有不同的定义。图2显示了三个样本图像,其中人群和他们的位置已经被识别,以及相应的地面真相。
在这里插入图片描述

消融实验。我们的目标是通过消融实验系统地去除每个尺度分支,从而验证我们方法的多尺度方面的有效性,并且我们将Si以及他们相应的损失排除在我们的总损失中。表2中的每一行都显示了一个实验,其中叉表示了对特定规模的损失项的排除。我们观察到,对于这两个数据集,当删除任何一个标度时,性能都会下降。
在这里插入图片描述
为了显示多尺度融合模块可以有效地结合从不同密度的每个分支提取的信息,我们基于每个图像中的人的数量,将数据集中的图像划分为5个不同的人群密度组。因此,第一组是密度的前20%,第二组20%-40%以此类推。接下来,我们计算每个分支的MAE,以研究我们的多尺度融合模块在不同密度组中的影响。结果如图3所示,我们观察到融合网络成功地结合了来自不同规模和不同密度的输出。这些结果表明,融合网络效果超过了几乎每个密度组的任何单一尺度,这表明融合方法比简单地平均每个个体尺度的结果更好。特别是,我们的多尺度融合方法将产生与基于这些密度组的先验知识切换尺度相同或更好的性能。
在这里插入图片描述

结语

在未来的工作中,我们可以探索通过学习自动加权损失函数中的不同项的方法。为此,我们可以探索不同的注意机制,并将其整合到我们的模型中。此外,在我们基于点的方法的同时使用密度图,可以通过集成或融合方法进行探索。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值