Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

 

Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

Motivation

Methods

Experiments


Paper URL

TL;DR

当前的主流的多目标检测分割方法都是采用tracking-by-detection的范式,这种采用卷积进行特征提取会受固有感受野的影响,会不可避免地将前景特征和背景特征混合在一起,从而在MOT后续实例关联任务中产生歧义。 本文提出了一种tracking-by-points的新范式,PointTracker ,通过将紧凑的图像表示转换为无序的2D点云表示,从而方便地将多模态的数据(颜色、位置、类别等)转换为点状向量表示,以更丰富的特征学习关联匹配的embedding。在KITTI MOTS,MOTS Challenge和本文提出的Appolo MOTS上都取得了SOTA的成绩,并且能够达到22FPS的实时性。

TL;DR

Motivation

  • 由于实例分割精确地描绘了可见实例的边界,并自然地分开了邻接实例,因此MOTS与基于边界框(bbox)的方法相比,不仅提供像素级分析,也有利于学习到更多的区分性实例的embedding特征。

  • 采用卷积进行特征提取embedding会受固有感受野的影响,会不可避免地将前景特征和背景特征混合在一起,从而在MOT后续实例关联任务中产生歧义,所以本文提出了再将有序的二维图像转化为无序的二维点云表示,从前景背景分别采样不同点云提取前景背景特征,避免前/背景信息混合。

Methods

1.Context-aware instance embeddings extraction

Embedding 特征提取总体思路:将带有上下文的Bbox中的像素按照分割mask分为前景F和背景E,分别在前景和背景中采样,以颜色、位置、类别组合构建采样点特征,所有采样点构成无序点云通过MLP提取embeding特征。

实现细节:对于一个分割实例$C$ ​,它的分割记为$C_s$​,外接矩形记为$C_b$​,为了让bbox中包含上下文信息,通常bbox向上下左右按照尺度因子(k=0.2)扩大一定区域,记为$\widehat{C_b}$​,通过分割mask可以确定$\widehat{C_b}$​​内的前景点​和背景点​.每个样本点的有6个维度特征$(u,v,R,G,B,C)$​,其中​$(u,v)$是图像平面上的相对于实例中心的偏移量,​$(R,G,B)$是三通道的颜色信息,$C$​表示该实例的类别

  • 从前景点集里面随机$N_F$​个前景点云$F$​(默认1000个),从背景点集里面随机选择​​ $N_E$个背景点​$E$(默认500个)

  • 计算个前景点​的形心,分别计算前景点和背景点相对于形心的偏移量​$O_{F_{i}}=\left(u_{i}^{F}-u_{c}^{F}, v_{i}^{F}-v_{c}^{F}\right), O_{E_{i}}=\left(u_{i}^{E}-u_{c}^{F}, v_{i}^{E}-v_{c}^{F}\right)$

  • 颜色信息直接取原始的像素信息​$C_{F_{i}}=\left(R_{i}^{F}, G_{i}^{F}, B_{i}^{F}\right), C_{E_{i}}=\left(R_{i}^{E}, G_{i}^{E}, B_{i}^{E}\right)$

  • 类别信息为one-hot的向量(其中类别也算作单独的类别): $\left\{H_{j} \mid j=1, \ldots, Z\right\}$​ ​    $Y_{E_{i}}=H_{\mathcal{C}_{i}}, \mathcal{C}_{i} \in[1, Z]$

  • Bbox位置信息:4个维度的坐标,不区分前景背景,单独提取一个64维度的Embedding特征

  • 前景特征提取分支:

    • 前景特征利用offset和color两类信息,通过MLP分别提取特征

    • 考虑到前景点中,基于直觉较突出的点应具有较高的权重,而其他的也应考虑,可以给与较低的权重,因此,引入了Point weighting层来对所有前景点进行加权

    • Max pooling 用于选择突出的关键点,Average pooling用于从所有点中选择平均特征

  • 背景特征提取:

    • 使用offset ,color,category三个信息提取特征,加入类别信息的原因是背景点中可能包含其他的实例信息,如(人, 车,纯背景等)需要进一步区分

    • 直接使用的Max pooling

  • 位置特征提取:

    • 位置特征提取参考Transformer将其编码为64维度embeding特征

最后联合前景特征、背景特征、位置特征使用MLP提取用于关联匹配的Embedding特征:

$M=\mathbf{M} \mathbf{L} \mathbf{P}\left(M_{F}+M_{E} + M_{P}\right)$

 

2. Online Track Association

数据关联阶段SORT ,DeepSORT使用的是匈牙利二分匹配算法,在相似性分数设计上,采用Embeding的欧式距离$D\left(M_{i}, M_{j}\right)$​和分割mask的分割交并比$ U\left(C_{s_{i}}, C_{s_{j}}\right)$ ​的线性融合综合度量

$$S\left(C_{s_{i}}, C_{s_{j}}\right)=-D\left(M_{i}, M_{j}\right)+\alpha * U\left(C_{s_{i}}, C_{s_{j}}\right)$$

 

3. Instance segmentation with Temporal Seed Consistency

实例分割经典框架是两阶段的Mask-RCNN,精度高,速度慢,本文采用了一阶段SpatialEmbedding分割网络,精度和速度相对都比较高。作者分析该网络的badcase发现,针对网络的时间一致性问题提出时域一致性损失改进该网络。

SpatialEmbedding的backbone遵循两个独立解码器的编码器-解码器结构,在解码器之后单独分出两支:(i)seed map 解码器, seed map 解码器为所有分割实例预测中心位置。ii)inst map 解码器:预测要指向相应实例中心的矢量的偏移量offset map 和该像素点偏移量的容忍方差sigma map。再推理的时候对于当前像素的位置加上offset的预测中心点,如果seed map推理的中心点,在预测的中心点容忍方差范围内,则将当前像素赋予seed map推理的中心点对应的那个实例,由此完成实例分割过程。

作者分析SpatialEmbedding分割网络的bad case的时候,发现前后连续帧之间的seed map不一致,便借助光流将前一帧的seed map传播到当前帧,用于监督当前帧的seed map, 保证seed map的时域一致性。如下式子,其中​ $S^{T-1}$表示第T-1帧的seed map ,​O表示光流传播计算(本文采用VCN网络提取光流)​ $\widehat{S^{T}}=O\left(S^{T-1}\right)$:​,则时域一致性损失定义为:

$$L_{t c}=\frac{1}{N} \sum_{i}^{N} \| \hat{S_{i}^{T}-S_{i}^{T} \|^{2}}$$

最终的网络结构如下图:

 

Experiments

实验分为四个部分。

  • 跨三个数据集评估PointTrack:KITTI MOTS],MOTSChallenge和Apollo MOTS数据集,其中Apolo MOTS是本文提出的数据集,比KITTI MOTS数据集有更多的数据,且场景更加crowded,场景中的车辆密度是KITTI的2.5倍

  • 数据模态的消融研究

  • 为了调查PointTrack从2D点云中学到的内容,我们将预测的实例Embedding和关键跟踪可视化

  • 在官方的KITTI MOTS测试仪上提供结果。

1.三个数据集上的评估:在三个数据集合上都取得SOTA的结果,证明了模型的鲁棒性,在sMOTSA和MOTSA上,PointTrack分别比当前方法高出3.5%和5.4%,同时也证明了本文 时域一致性(TC)损失对PointTrack涨点有效

 

 

 

 

 

2.多模态数据消融实验:通过依次删除四种数据模式以确定它们对性能的影响。 当删除颜色数据时,性能下降最大。 相比之下,移除位置数据时的性能下降是最小的。这种性能差异的差异表明,pointTrack更加关注外观特征和环境特征,而较少依赖边界框位置来关联实例,从而实现更高的跟踪 性能和更低的ID-switch。

 

 

3.Embedding和关键点可视化

  • Embedding可视化:使用t-SNE方法将embedding特征压缩到二维空间可视化,途中不同颜色代表不同轨迹,文中选择了35条轨迹,每条轨迹选择前后连续20个Embedding特征作为样本可视化,如下图。作者发现:轨迹的Embedding 呈现两种不同的形状:(i)线性分布(轨迹9、13、20); (ii)球形分布(轨迹7、26、32)。 进一步对比视频原图发现,线性的轨迹,目标多与相机的较大相对运动。 他们是迎面而来的汽车或固定汽车。 对于球形的轨迹,大多数是方向相同且相对运动较小的汽车。

 

  • 关键点可视化:关键点可视化分为前景点和背景点,红色代表前景点,黄色代表背景点

    • 关键前景点:选择point weighting层预测的权重前10%的点做为关键前景点,用红色绘制。关键的前景点聚集在汽车眼镜和汽车灯周围。 这些点的偏移量对于学习车辆的形状和姿势至关重要。 同样,它们的颜色对于概述实例外观和光分布也很重要。 此外,我们发现,即使遮挡了不同的部分(第一组的第二列和第五列),或者汽车移动到图像边界(第一组的第四列),PointTrack也会保持连续帧中加权点的一致性。这种连续帧上点加权的一致性显示了point weighting 层的有效性

    • 关键背景点:对于背景点,用黄色可视化五个最关键点,这些点的选择是先在背景分支的最max pooling层之前获取大小为256 * ​的张量,然后收集所有值的最大值的索引 。 在这256个索引中,选择属于五个最常见索引的点。 如图所示,当实例与任何其他实例相邻时,黄点通常会聚集在附近的实例上。 作者认为当将category分类信息与offset位置信息 组合时,背景点可以提供比较强的上下文信息,以促进MOT的实例关联。 关键背景点的分布验证了PointTrack从背景点中学习了区分性上下文特征。

 

4.在KITTI MOTS TEST数据集测试:取得soto的结果, 从MOTSA指标上看,PointTrack在汽车上和行人上比MOTSFusion超出了6.8%和3.6%。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值