Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework

摘要

  在人群中定位个人比简单地计数更符合后续高级人群分析任务的实际需求。然而,依赖于作为学习目标的中间表示(即密度图或伪盒)的现有基于定位的方法是反直觉的并且容易出错。在本文中,我们提出了一个纯粹基于点的联合人群计数和个体定位框架。对于该框架,我们提出了一种新的度量,称为密度归一化平均精度(nAP),以提供更全面、更精确的性能评估,而不仅仅是报告图像级别的绝对计数误差。此外,我们在此框架下设计了一个直观的解决方案,称为点对点网络(P2PNet)。P2PNet丢弃多余的步骤,直接预测一组点建议来表示图像中的头部,与人类注释结果一致。通过彻底的分析,我们揭示了实现这样一个新想法的关键步骤是为这些建议分配最佳的学习目标。因此,我们建议使用匈牙利算法以一对一匹配的方式进行这种关键关联。P2PNet不仅在流行的计数基准上显著超过了最先进的方法,而且实现了有希望的定位精度。这些代码将在以下网站上提供:TencentYoutuResearch/CowdCounting-P2PNet。

1 引言

  在人群分析的所有相关具体任务中,人群计数是一个基本支柱,旨在估计人群中的个体数量。然而,仅仅给出一个数字显然远远不能满足随后更高层次人群的实际需求分析任务,如人群跟踪、活动识别、异常检测、流量/行为预测等。

在这里插入图片描述

图1。我们的管道与现有方法的比较说明,其中预测用红色标记,而地面实况用绿色标记。顶流:基于密度图学习的主流方法无法提供个体的确切位置。中间流:估计的不准确的地面实况边界框使基于检测的方法容易出错,例如所示的遗漏检测,尤其是对于类似NMS的过程。底部流:我们的管道直接预测一组点来表示个人的位置,这是简单、直观和有竞争力的,绕过了那些容易出错的步骤。最佳观看颜色。

   事实上,在这个领域,除了简单的计数之外,还有一个更具挑战性的细粒度估计(即个体的位置)的明显趋势。具体而言,一些方法将人群计数视为头部检测问题,但将更多的精力放在了小规模头部的劳动密集型注释上。其他方法[30,35]试图仅用提供了点注释,但这至少看起来很棘手或不准确。同样,在试图直接定位个体时,几种方法[17,24]在抑制或分裂接近实例的候选者时陷入了困境,由于极端的头部尺度变化,使其容易出错,尤其是在高度拥挤的区域。为了避免上述问题,我们提出了一个纯粹基于点的框架,用于联合计算和定位人群中的个人。该框架直接使用点标注作为学习目标,同时输出点来定位个体,得益于点表示的高精度定位特性及其相对较低的标注成本。管道如图1所示.

  此外,在评估指标方面,一些有远见的工作[9,37]鼓励采用补丁级别的指标进行细粒度评估,但它们只为本地化提供了一个粗略的衡量标准。其他现有的定位感知指标要么忽略了人群之间的显著密度变化[30,35],要么缺乏对重复预测的惩罚[35,40]。相反,我们提出了一种称为密度归一化平均精度(nAP)的新度量,以提供定位和计数误差的综合评估度量。nAP度量支持框和点表示作为输入(即预测或注释),而没有上述缺陷。
  最后,作为这一新框架下的直观解决方案,我们开发了一种新方法,用图像中头部的坐标及其置信度直接预测一组点建议。具体而言,我们提出了一种点对点网络(P2PNet),以直接接收一组注释的头部点,用于训练和预测推理过程中的点。然后,为了使这种想法正确地发挥作用,我们深入研究了地面实况目标分配过程,以揭示这种关联的关键。结论是,无论是多个提议与单个基本事实相匹配的情况,还是相反的情况,都可能使模型在训练过程中变得混乱,导致高估或低估计数。因此,我们建议通过匈牙利算法进行一对一匹配,将点建议与其地面实况目标相关联,不匹配的建议应归类为否定建议。我们的经验表明,这种匹配有利于改进nAP度量,这是我们在新框架下解决方案的关键组成部分。这种简单、直观和高效的设计产生了最先进的计数性能和有希望的定位精度。
  这项工作的主要贡献有三个方面:
1.我们提出了一个纯粹基于点的框架,用于人群中的联合计数和个体定位。该框架鼓励细粒度预测,有利于群组分析中下游任务的实际需求。

2.我们提出了一种新的度量标准,称为密度归一化平均精度,以考虑两个-量化和计数,作为新框架下的综合评价指标。

3.我们提出P2PNet作为遵循这个概念上简单的框架的直观解决方案。该方法实现了最先进的计数精度和有希望的定位性能,也可能对其他依赖点预测的任务有所启发。

2 相关工作

  在本节中,我们回顾了最近文献中的两种人群计数方法。它们根据是否可以提供个人的位置进行分组。由于我们专注于位置的估计,因此还讨论了考虑定位误差的现有度量。
  基于密度图的方法。密度图是最先进的人群计数方法的常见选择,因为它在[18]中首次引入。并且通过对预测的密度图求和来获得估计的计数。最近,人们致力于推动这种方法的计数性能前沿。他们要么进行逐像素密度图回归[20,32,14,2,29,11],要么将局部补丁的计数值分类为几个区间[45,25,26]。尽管已经提出了许多令人信服的模型,但这些基于密度图学习的模型仍然无法提供人群中个体的确切位置,更不用说[2,31,25]中指出的其固有缺陷了。而所提出的方法超越了计数,专注于对个体位置的直接预测,避免了密度图的缺陷,也有利于下游的实际应用。
  基于本地化的方法。这些方法通常通过首先预测个体的位置来实现计数。受尖端物体探测器的启发,一些计数方法[21,30,35]试图预测个体头部的边界框。然而,由于只有点注释可用,这些方法依赖于地面实况边界框的启发式估计,这是容易出错甚至不可行的。这些不准确的边界框不仅混淆了模型训练过程,而且使后过程(即NMS)无法抑制错误检测。在没有引入这些不准确的目标的情况下,其他方法通过点[24]或斑点[17]来定位个体,但在密集区域中留下了更多的努力来去除重复的个体或分割接近检测到的个体。相反,通过一对一匹配绕过这些棘手的后处理,我们建议简化框架,直接估计个人的点位置。
  本地化感知指标。传统的普遍认可的评估指标只测量计数误差,完全忽略了单个图像中估计误差的显著空间变化。提供更准确的评估-因此,一些工作[9,27,37]主张采用斑块级或像素级绝对计数误差作为标准,而不是常用的图像级度量。其他研究[35]提出平均定位误差来计算预测和地面实况之间的平均像素距离,仅评估定位误差。受对象检测中使用的评估度量的启发,[13]提出在贪婪关联后使用Precision Recall曲线下的区域,但忽略了对重复预测的惩罚。因此,[24]建议采用顺序匹配,然后使用标准平均精度(AP)进行评估。在本文中,我们提出了一种新的度量,称为密度归一化平均精度(nAP),作为定位误差和错误检测的综合评估度量。特别地,nAP度量引入了密度归一化,以解决人群中的大密度变化问题。

3 我们的工作

  我们首先详细介绍了所提出的框架(第3.1节),并提出了新的评估指标nAP(第3.2节)。然后,我们进行了深入的分析,揭示了在新框架下改进nAP指标的关键问题(第3.3节)。受深入分析的启发,我们介绍了所提的P2PNet(第3.4节),其直接预测一组点建议来代表头部。

3.1 纯粹基于点的框架

  所提出的框架直接接收点注释作为其学习目标,然后提供人群中个人的确切位置,而不是简单地计算人群中的个人数量。个人的位置通常由头部的中心点指示,可能有可选的置信度分数。
  形式上,给定一个包含N个个体的图像,我们使用pi=(xi,yi),i∈{1,…,N}来表示位于(xi,yi”)的第i个个体的头部中心点。然后,所有个体的中心点的集合可以进一步表示为P={pi|i∈{1,…,N}}。假设设计良好的模型M被训练来实例化这个新框架。并且模型M预测了另外两个集合,其中M是预测的个体的数量,并且Gui cj是预测点Gui pj的置信度得分。在不失一般性的情况下,我们可以假设,对地面实况点pi的预测恰好是576 pj。然后,我们的目标是确保在具有足够高的分数的情况下,Plot pj和pi之间的距离尽可能接近。作为副产品,预测的个体数量M也应该足够接近真实人群数量N。简而言之,新框架可以同时实现人群计数和个体定位。
  与传统的计数方法相比,该框架提供的单个位置有助于基于运动的人群分析任务,如人群跟踪[49]、活动识别[8]、异常检测[4]等。此外,在不依赖费力的注释、不准确的伪框或棘手的后处理的情况下,该框架得益于原始点表示的高精度定位特性,特别是对于人群中高度拥挤的区域。
  因此,与传统的人群统计相比,这种新的框架具有优势和实用价值,值得更多的关注。然而,由于存在严重的遮挡、密度变化和注释错误,处理这样的任务是非常具有挑战性的[24,30,35],这在[13]中甚至被认为是理想但不可行的。

3.2 密度归一化平均精度

  人们自然会问,在上述新框架下,如何评估模型M的性能。事实上,遵循该框架的性能良好的模型不仅应该产生少量的假阳性或假阴性,而且还应该实现有竞争力的定位精度。因此,受目标检测中广泛使用的平均平均精度(mAP)[23]度量的启发,我们提出了一种密度归一化平均精度(nAP)来评估定位误差和计数性能。
  nAP是基于平均精度计算的,平均精度是精度-召回(PR)曲线下的面积.按照[23]中的常见做法,通过累积二进制列表可以很容易地获得PR曲线。在二进制列表中,真阳性(TP)预测由1表示,假阳性(FP)预测由0表示。具体而言,给定所有预测的头部点,我们首先用它们的置信度得分从高到低对点列表进行排序。然后,我们根据预定义的密度感知标准,依次确定所调查的点是TP或FP。与[13,35]中使用的贪婪关联不同,我们应用了顺序关联,其中首先关联那些得分较高的预测。通过这种方式,这些TP预测可以通过推理期间的简单阈值滤波来容易地获得。
  我们介绍我们的密度感知标准如下。只有当预测点Şpj可以与某些基本事实pi匹配时,它才被分类为TP,其中pi之前不能与任何更高排名的点匹配。匹配过程由基于像素级欧几里得距离的标准1(ξpj,pi)指导。然而,直接使用像素距离来测量亲和力忽略了人群之间密度变化大的副作用。因此,我们为该匹配标准引入了密度归一化,以缓解密度变化问题。某一地面实况点周围的密度估计如下[48]。形式上,nAP中使用的最终标准定义为:
在这里插入图片描述
其中,d(ξpj,pi)=||ξpj−pi||2表示到欧几里得距离,并且dkNN(pi)表示到π的k个最近邻居的平均距离。我们使用阈值δ来控制所需的定位精度,如图2所示。
在这里插入图片描述

图2:nAP(k=3)中不同水平定位精度的说明。黄色圆圈表示从中心GT点pi开始的dkNN(pi)像素内的区域。δ的典型值是0.5,如蓝色圆圈所示,这意味着该区域内大多数像素的最近GT点应该是π。红色圆圈表示用于更严格定位精度的阈值(δ=0.25)。

3.3 我们的方法

  我们的方法是遵循所提出的框架的直观解决方案,该框架直接预测一组点建议,以表示个人头部的中心点。事实上,点预测的想法对视觉界来说并不新鲜,尽管这里有很大的不同。举几个例子,在姿态估计领域,一些方法采用热图回归[5,43]或直接点回归[38,44]来预测预定义关键点的位置。由于要预测的关键点的数量是固定的,因此可以在训练之前完全确定这些点建议的学习目标。不同的是,所提出的框架旨在预测未知大小的点集,本质上是一个开集问题[45]。因此,这种方法的一个关键问题是确定当前预测应该负责哪个基本事实点。
在这里插入图片描述

图3(a) 当为多个地面实况点中的每一个选择最近的方案时,它们可能与同一个方案相匹配,这会导致计数估计不足。(b) 当为多个提案中的每一个选择最近的地面实况时,可能会将多个提案与同一地面实况点相匹配,这会导致高估计数。(c) 我们的一对一匹配没有上述两个缺陷,因此适合于直接点预测。

  我们建议在训练阶段使用相互优化的一对一关联策略来解决这个关键问题。让我们进行深入的分析,以显示其他两种策略在地面实况目标分配方面的缺陷。首先,对于每个地面实况点,距离最近的建议应该产生最佳预测。然而,如果我们为每个地面实况点选择最接近的方案,则一个方案可能与多个地面实况点匹配,如图3(a)所示。在这种情况下,只能正确预测一个基本事实,导致计数估计不足,尤其是在拥挤地区。其次,对于每个点建议,我们可以将最近的地面实况点指定为它的目标。直观地说,这种策略可能有助于减轻优化的总体开销,因为最近的地面实况点相对更容易预测。然而,在这样的任务中,可能存在多个同时预测相同基本事实的提案,如图3(b)所示。因为没有可用的比例注释,所以很难抑制这些重复的预测,这可能会导致高估。因此,关联过程应该考虑双方,并产生相互优化的一对一匹配结果,如图3(c)所示。

  此外,其他两种策略都必须确定一个负阈值,与匹配目标的距离超过该阈值的提案将被视为负阈值。在使用一对一匹配时,那些不匹配的建议会自动保留为否定建议,而不会引入任何超参数。简而言之,解决开集直接点预测问题的关键是确保预测点和地面实况点之间的一对一匹配。

  在获得地面实况目标之后,可以通过端到端优化来训练这些点建议。最后,积极的建议应该被推向目标,而那些消极的建议则被简单地归类为背景。由于点建议是随着训练过程而动态更新的,因此可以通过一对一匹配来逐渐选择那些具有更好表现潜力的建议,以用作最终预测。

  实际上,上述匹配中使用的距离可以是像素距离之外的任何其他成本度量,例如置信度得分和像素距离的组合。我们的经验表明,在一对一匹配过程中考虑提案的置信度分数有助于改进所提出的nAP度量。让我们考虑一下两个预测的提议围绕相同的基本事实点pi。如果它们具有相同的置信度得分,则应该将更接近pi的一个匹配为正,并鼓励它们实现更高的定位精度。而另一个建议应该被匹配为否定的,并被监督以降低其置信度,因此在下一次训练迭代中可能不会再次匹配。相反,如果这两个提议与圆周率有相同的距离,则具有较高置信度的提议应该被训练为更接近具有高得多置信度的圆周率。以上两种情况都将鼓励积极的提案具有更准确的位置和相对更高的置信度,这有利于在拟议的框架下改进nAP。
在这里插入图片描述

图4 参考点的两种布局类型(s=2,K=4)

3.4 P2PNet模型

  在这一部分中,我们介绍了拟议的点对点网络(P2PNet)的详细流程。从点建议的生成开始,我们详细介绍了我们的一对一关联策略。然后介绍了P2PNet的损失函数和网络结构。

  点建议预测。让我们用Fs表示从骨干网络输出的深度特征图,其中s是下采样步长,Fs的大小为H×W。然后在Fs的基础上,采用两个平行分支进行点坐标回归和建议分类。对于分类分支,它输出具有Softmax归一化的置信度分数。对于回归分支,由于卷积层固有的平移不变特性,它倾向于预测点坐标的偏移。具体地说,Fs上的每个像素应该对应于输入图像中大小为s×s的补丁。点建议预测。让我们用Fs表示从骨干网络输出的深度特征图,其中s是下采样步长,Fs的大小为H×W。然后在Fs的基础上,采用两个平行分支进行点坐标回归和建议分类。对于分类分支,它输出具有Softmax归一化的置信度分数。对于回归分支,由于卷积层固有的平移不变特性,它倾向于预测点坐标的偏移。具体地说,Fs上的每个像素应该对应于输入图像中大小为s×s的补丁。
在这里插入图片描述
其中γ是归一化项,它缩放偏移量以校正相对较小的预测。

  方案匹配。根据第3.1节中定义的符号,我们使用一对一匹配策略,为P中的每个点建议分配来自576 P的地面实况目标Ω(P,图P,D)。D是一个形状为N×M的成对匹配代价矩阵,它测量一对中两点之间的距离。我们不简单地使用像素距离,而是考虑该提案的置信度分数,因为我们鼓励积极的提案具有更高的置信度。形式上,成本矩阵D定义如下:
在这里插入图片描述
其中,||·||2表示l2距离,而plo cj是建议的置信度得分plo pj。τ是一个权重项,用于平衡像素距离的影响。

  基于成对成本矩阵D,我们使用匈牙利算法[16,34,42]作为匹配策略进行关联Ω. 请注意,在我们的实现中,我们确保M>N产生足够多的预测,因为那些多余的提议将被归类为负面的。从基本真值点的角度来看,让我们使用{1,…,M}的置换ξ来表示最优匹配结果,即ξ=Ω(P,图P,D)。也就是说,基本真值点pi与提议ξpξ(i)相匹配。此外,那些匹配的提议(积极的)可以表示为一个集合,该集合中的那些不匹配的提议为:?ξpξ(i)|i∈{N+1,…,M}?被标记为底片。

  损失设计。在获得地面实况目标后,我们计算欧几里得损失Lloc来监督点回归,并使用交叉熵损失Lcls来训练建议分类。最终损失函数L是上述两个损失的总和,其定义为:
在这里插入图片描述
其中||·||l2表示欧几里得距离,λ1是负提议的重加权因子,λ2是平衡回归损失影响的权重项。

  网络设计。如图5所示,我们使用VGG-16 bn[36]中的前13个卷积层来提取深层特征。对于输出的特征图,我们使用最近邻插值将其空间分辨率提高2倍。然后将上采样的贴图与通过元素相加从横向连接获得特征图。该横向连接用于在第四卷积blcok之后减小特征图的通道维度。最后,合并后的特征图经过3×3卷积层以获得Fs,其中的卷积用于减少由于上采样引起的混叠效应。
在这里插入图片描述

图5。拟建P2PNet的总体架构。在VGG16的基础上,首次引入上采样路径来获得细粒度的深度特征图。然后,它利用两个分支来同时预测一组点建议及其置信度得分。我们计划中的关键步骤是确保点建议和基本事实点之间的一对一匹配,这决定了这些建议的学习目标。

  我们的P2PNet中的预测头由两个分支组成,这两个分支都输入了Fs,并分别产生点位置和置信度得分。为了简单起见,两个分支的架构保持不变,由三个与ReLU激活交织的堆叠卷积组成。我们从经验上发现,这种简单的结构产生了有竞争力的结果。

4 实验

4.1 实施细则

  数据集。我们在人群计数中利用现有的公开数据集来证明我们方法的优越性。具体而言,在四个具有挑战性的数据集上进行了广泛的实验,包括ShanghaiTech PartA和PartB[48]、UCF CC 50[12]、UCF-QNRF[13]和NWPU Crowd[40]。对于UCF CC 50的实验,我们在[12]中进行了五次交叉验证。

  数据增强。我们首先采用随机缩放,其缩放因子选自[0.7,1.3],保持短边不小于128。然后,我们从调整大小的图像中随机裁剪出固定大小为128×128的图像块。最后,还采用了概率为0.5的随机翻转。对于包含超大分辨率的数据集,即QNRF和NWPU Crowd,我们保留图像的最大尺寸分别不超过1408和1920,并保持原来的纵横比。

  超参数。我们使用步幅s=8的特征图来进行预测。参考点的数量K被设置为4(QNRF数据集为8)。并且K是根据数据集统计设置的,以确保M>N。对于点回归,我们将γ设置为100。匹配期间的权重项τ被设置为5e-2。在损失函数中,λ1设置为0.5,λ2设置为2e-4。使用具有固定学习率1e-4的Adam算法[15]来优化模型参数。由于骨干网络中的权重已经在ImageNet上进行了预训练,因此,我们使用较小的学习率1e-5。训练批次大小设置为8。

4…2 模型评价

  作为一个综合标准,首次报道了所提出的nAP度量来评估我们的P2PNet模型的性能。如表1所示,使用δ的三个不同阈值来报告nAP,这对应于预测的单个点在不同定位精度下的平均精度。通常,nAP0.5可以满足大多数实际应用的要求,这意味着地面实况点恰好是该区域内大多数点的最近邻居。此外,据报道,nAP0.1和nAP0.25满足了一些高定位精度的要求。根据最近的检测方法,在几个阈值下报告AP的平均值,以提供整体性能的单个数字,我们采用了类似的度量。具体来说,我们计算了多重nAPδ,δ从0.05到0.50,步长为0.05。然后对得到总平均精度nAP{0.05:0.05:50.0}。
在这里插入图片描述

  从表1中,我们观察到,我们的P2PNet在不同水平的定位精度下实现了有希望的平均精度。具体来说,它的总体度量nAP{0.05:0.05:50:50}在所有数据集上约为60%,这应该已经满足了许多实际应用的要求。就主要指标nAP0.5而言,P2PNet通常实现超过80%的有希望的精度。对于大多数数据集,P2PNet可以实现近90%的nAP0.5,这证明了我们的方法在个体定位方面的有效性。即使对于更严格的指标nAP0.25,精度仍然高于55%。这些结果令人鼓舞,因为我们没有使用任何技术,如[3,47]中的坐标细化或利用多个特征级别[22],这两种技术都与我们的贡献正交,应该会带来更多的改进。此外,P2PNet对nAP0.05的精度相对较低,这是合理的,因为在如此高的定位精度下,标记偏差的影响可能会逐渐变得明显。

  此外,我们还注意到,NWPU群组数据集[40]提供了稀缺但有价值的框注释,因此我们使用它们的指标来报告我们的本地化性能,以与其他竞争对手进行比较。我们的P2PNet实现了71.2%/72.9%/69.5%的F1测量/精度/召回率,这是已发表的具有类似主干的方法中最好的。对于其他具有官方代码的基于本地化的方法,我们也在补充中以nAP度量(远低于我们的度量)报告了它们的结果。

  此外,我们还评估了我们的模型的计数准确性。我们的P2PNet的估计人群数量是通过对预测点进行置信计数来获得的得分高于0.5。我们在几个具有不同密度的具有挑战性的数据集上将P2PNet与最先进的方法进行了比较。与[48]类似,我们也采用了平均绝对误差(MAE)和均方误差(MSE)作为评估指标。结果如表2和表3所示。最高性能用粗体数字表示,第二好性能用下划线数字表示。
在这里插入图片描述

  上海科技。ShanghaiTech数据集中有两个独立的子集:PartA和PartB。PartA包含从互联网收集的高度拥塞的图像。而PartB是从繁忙的街道上收集的,代表了相对稀疏的场景。我们的P2PNet在甲方和乙方都取得了最佳性能。特别是,在PartA上,与第二好的方法ADSCNet相比,P2PNet分别将MAE降低4.8%和MSE降低12.9%。对于PartB中的稀疏场景,P2PNet还可以使MAE减少2.3%。

  UCF立方厘米50。UCF CC50只有50张从互联网上收集的图像,但包含了人群数量变化很大的复杂场景。如表2所示,我们的P2PNet超越了所有其他方法,与第二好的性能相比,MAE降低了2.1UCF-QNRF。

  UCF-QNRF是一个具有挑战性的数据集,因为更广泛的计数范围。如表2所示,我们的P2PNet实现了85.32的MAE,这比基于神经结构搜索的方法AMSNet要好得多。与之前的最佳方法ADSCNet相比,尽管我们的方法的准确性没有那么有竞争力,但在所有其他数据集上仍然远高于ADSCNet。此外,在表2中的所有方法中,只有我们的方法能够提供准确的单个位置。

  NWPU人群。NWPU群组数据集是最近在[40]中引入的大规模拥塞数据集。如表3所示,我们的P2PNet实现了最佳的总体MAE,与第二种最佳方法DM计数相比,减少了12.4%。由于为了简单起见,我们的预测仅基于单尺度特征图,因此结果略低于MAE[S]上的最佳性能。MAE[S]是不同量表水平的平均MAE,请参考[40]。

4.3 消融研究

在这里插入图片描述

  参考点的布局。我们首先从参考点的布局来评估效果。如表4所示,我们比较了图4中的两种布局。一般来说,这两种布局都实现了最先进的性能,差异很小,证明了目标关联比参考点的布局更重要。网格布局由于其参考点的密集排列而表现稍好,这有利于拥堵地区。
在这里插入图片描述

  功能级别的影响。我们展示了用于预测的不同特征级别的效果。为了进行公平的比较,当使用具有不同步长的特征级别时,我们保持总参考点相同。如表5所示P2PNet使用不同的特征级别始终获得有竞争力的结果,这证明了我们基于点的解决方案的有效性。特别地,步长为8的特征级别为各种密度提供了折衷,从而产生了更好的性能。

  在定位精度方面,我们观察到,当我们提高特征图分辨率时,nAP有明显的改进趋势,如表5所示。这意味着最好的特征图有利于定位,这也符合其他任务的共识。此外,基于我们的基线方法,引入现有的多尺度特征融合技术(如[22])将是一件有趣的事情,为了简单起见,这些技术在我们的P2PNet中被丢弃了。

5 结论

  在这项工作中,我们超越了人群计数,提出了一个纯粹基于点的框架来直接预测人群个体的位置。这种新的框架可以更好地满足人群分析中下游任务的实际需求。同时,我们主张使用一种新的度量nAP来对定位和计数进行更全面的准确性评估。此外,作为遵循该框架的直观解决方案,我们提出了一种新的网络P2PNet,它能够直接将点注释作为监督,同时在推理过程中预测点位置。P2PNet的关键组成部分是地面实况目标关联过程中的一对一匹配,这有利于nAP度量的改进。这个概念上简单的框架产生了最先进的计数性能和有希望的定位精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MySunshine456

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值