【论文阅读】人群计数(Crowd Couting)| RGBT-CC | Cross-Modal Collaborative Representation Learning

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting(CVPR2021)

arxiv:chen-judge/RGBTCrowdCounting: Official Implement of CVPR 2021 paper “Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting” (github.com)icon-default.png?t=N7T8https://github.com/chen-judge/RGBTCrowdCounting

GitHub:chen-judge/RGBTCrowdCounting: Official Implement of CVPR 2021 paper “Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting” (github.com)icon-default.png?t=N7T8https://github.com/chen-judge/RGBTCrowdCounting

一、摘要

在这项工作中,我们发现结合光学和热信息可以极大地帮助识别行人。为了促进该领域的未来研究,我们引入了大规模 RGBT 人群计数 (RGBT-CC) benchmark,其中包含 2,030 对 RGB 热图像以及 138,389 个带注释的人。

此外,为了促进多模态人群计数,我们提出了一个跨模态协作表示学习框架,该框架由多个特定模态分支、一个模态共享分支和一个信息聚合分发模块(IADM)组成,以充分捕获不同模态的互补信息。具体来说,我们的 IADM 结合了两种协作信息传输,通过双重信息传播机制动态增强模态共享和模态特定表示。

在 RGBT-CC benchmark上进行的大量实验证明了我们的 RGBT 人群计数框架的有效性。此外,所提出的方法对于多模式人群计数是通用的,并且也能够在 ShanghaiTechRGBD 数据集上实现卓越的性能。

二、正文

1. Introduction

以前的大多数方法仅利用从 RGB 图像中提取的光学信息,并且可能无法在不受约束的场景中准确识别语义对象。例如,如图1(a,b)所示,行人在光照条件较差(例如逆光和夜晚)时几乎看不见,并且很难从RGB图像中直接检测到。此外,一些人形物体(例如微小的柱子和模糊的交通信号灯)与行人具有相似的外观,仅依靠光学特征时很容易被误认为是人。热图像可以极大地帮助区分潜在的行人和杂乱的背景,但热图像并不完美。如图1-(c,d)所示,一些硬底片物体(例如加热墙和灯)也在热图像中突出显示,但借助光学信息可以有效消除它们。总体而言,RGB图像和热图像具有很强的互补性。

图1

传统方法要么将多模态数据的组合输入深度神经网络,要么直接融合它们的特征,这不能很好地利用互补信息。我们的 IADM 与两个协作组件集成,包括

i) 信息聚合传输,动态聚合所有特定于模态的特征的上下文信息以增强模态共享特征;

ii) 信息分发传输,将模态共享信息传播到对称地细化每个特定于模态的特征以进行进一步的表示学习。

此外,定制设计的 IADM 嵌入到不同的层中,以分层学习跨模态表示。因此,所提出的框架可以生成具有全面信息的知识特征,从而产生高质量的人群密度图。

2. Related Works

多模态表示学习:多模态表示学习旨在通过机器学习理解和表示跨模态数据。跨模态特征融合有多种策略。一些简单的融合方法通过“Early Fusion”和“Late Fusion”方式中的逐元素乘法/加法或串联操作获得融合特征。为了利用早期和后期融合的优势,各种基于双流的模型提出融合分层跨模态特征,实现完全代表性的共享特征。再有,一些方法探索了共享分支的使用,将共享信息映射到公共特征空间。此外,最近的一些工作被提出来解决RGBD显着性检测,这也是跨模式密集预测任务(具体可参考文章中的索引文献)。然而,这些工作大多数都是单向信息传递,只是使用深度模态作为辅助信息来帮助 RGB 模态的表示学习。在这项工作中,我们提出了一种对称动态增强机制可以充分利用人群计数中的模式互补性。

3. RGBT Crowd Counting Benchmark

我们首先使用光学热相机在各种场景(例如商场、街道、游乐场、火车站、地铁站等)拍摄大量RGB热图像。由于电子传感器类型的不同,原始RGB图像的分辨率为2,048×1,536,视场较宽,而热图像的标准分辨率为640×480,视场较小。根据坐标映射关系,裁剪相应的RGB区域并将其大小调整为640×480。然后,我们选择 2,030 对代表性 RGB 热图像进行手动注释。在这些样本中,有 1,013 对是在光照下拍摄的,1,017 对是在黑暗中拍摄的。共有 138,389 名行人被标记了点注释,平均每张图像有 68 人。我们的RGBT-CC数据集具有更接近现实城市的人群密度分布,因为我们的图像是在不同密度的城市场景中捕获的。因此,我们的数据集在城市人群分析方面具有更广泛的应用。

图2
表1

4. Method

在本节中,我们采用代表性的 CSRNet 作为backbone network来开发 RGBT 人群计数框架。值得注意的是,我们的框架可以用各种backbone network网络(例如,MCNN 、SANet 和 BL )来实现,并且对于多模态人群计数也是通用的。

4.1 Overview

如图 3 所示,所提出的 RGBT 人群计数框架由三个并行backbones和一个信息聚合分发模块(IADM)组成。具体来说,顶部和底部主干是为特定模态(即 RGB 图像和热图像)表示学习而开发的,而中间主干是为模态共享表示学习而设计的。为了充分利用多模态互补性,我们的 IADM 动态传输特定共享信息,以协作增强特定模态和模态共享表示。因此,最终的模态共享特征包含全面的信息,并有助于生成高质量的人群密度图。

图3

每个分支都是用 CSRNet 实现的,它由具有 VGG16前十个卷积层的前端块具有六个扩张卷积层的后端块组成。更具体地说,模态特定分支基于 CSRNet 前端块,而模态共享分支基于 CSRNet 的最后 14 个卷积层。

特征提取后,我们采用 4.2 节中描述的IADM来学习跨模态协作表示。为了分层地利用多模态信息,所提出的 IADM 嵌入在不同层之后,具体来说,在 Convi_j 之后,IADM 在模态特定和模态共享之间动态传输补充信息相互增强的功能。

4.2 Collaborative Representation Learning

为了充分捕捉RGB 图像和热图像的互补性,我们提出了一个信息聚合和分发模块(IADM)来协作学习具有双重信息传播的跨模态表示机制。具体来说,我们的 IADM 集成了两个协作传输,这两个协作传输动态传播上下文信息以相互增强模态特定和模态共享表示。

图4

图 4:(a) 信息聚合传输:我们首先从模态特定特征 Fr/Ft 中提取上下文信息 Ir/It,然后动态传播它们以增强模态共享特征 Fs。 (b)信息分布传输:增强特征Fs的上下文信息Is自适应地分布到每个特定于模态的特征以进行反馈细化。 “+”表示按元素加法,“-”表示按元素减法。

5. Experiments

金字塔池化层层数的有效性:在所提出的IDAM中,利用L层金字塔池化层来提取上下文信息。在本节中,我们将探讨级别数的有效性。如表5所示,当L设置为1时,GAME(3)和RMSE分别为35.88和33.01。随着层数的增加,我们的性能也逐渐变好,当金字塔池化层有三个层时,我们可以取得非常有竞争力的结果。超过 3 个级别不会带来额外的性能提升。因此,在我们的工作中,级别数 L 始终设置为 3。

  • 28
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值