Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

最新推荐文章于 2024-08-22 09:03:42 发布

rain thought

最新推荐文章于 2024-08-22 09:03:42 发布

阅读量1k

点赞数

分类专栏：跟踪算法文章标签：计算机视觉深度学习人工智能机器学习

本文链接：https://blog.csdn.net/zhangsy_csdn/article/details/107734023

版权

跟踪算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

TL;DR

当前的主流的多目标检测分割方法都是采用tracking-by-detection的范式，这种采用卷积进行特征提取会受固有感受野的影响，会不可避免地将前景特征和背景特征混合在一起，从而在MOT后续实例关联任务中产生歧义。本文提出了一种tracking-by-points的新范式，PointTracker ，通过将紧凑的图像表示转换为无序的2D点云表示，从而方便地将多模态的数据（颜色、位置、类别等）转换为点状向量表示，以更丰富的特征学习关联匹配的embedding。在KITTI MOTS,MOTS Challenge和本文提出的Appolo MOTS上都取得了SOTA的成绩，并且能够达到22FPS的实时性。

TL;DR

Motivation

由于实例分割精确地描绘了可见实例的边界，并自然地分开了邻接实例，因此MOTS与基于边界框（bbox）的方法相比，不仅提供像素级分析，也有利于学习到更多的区分性实例的embedding特征。
采用卷积进行特征提取embedding会受固有感受野的影响，会不可避免地将前景特征和背景特征混合在一起，从而在MOT后续实例关联任务中产生歧义,所以本文提出了再将有序的二维图像转化为无序的二维点云表示，从前景背景分别采样不同点云提取前景背景特征，避免前/背景信息混合。

Methods

1.Context-aware instance embeddings extraction

Embedding 特征提取总体思路：将带有上下文的Bbox中的像素按照分割mask分为前景F和背景E,分别在前景和背景中采样，以颜色、位置、类别组合构建采样点特征，所有采样点构成无序点云通过MLP提取embeding特征。

实现细节：对于一个分割实例 $C$ ,它的分割记为 $C_s$ ，外接矩形记为 $C_b$ ，为了让bbox中包含上下文信息，通常bbox向上下左右按照尺度因子（k=0.2）扩大一定区域，记为 $\widehat{C_b}$ ,通过分割mask可以确定 $\widehat{C_b}$ 内的前景点和背景点.每个样本点的有6个维度特征 $(u,v,R,G,B,C)$ ,其中 $(u,v)$ 是图像平面上的相对于实例中心的偏移量， $(R,G,B)$ 是三通道的颜色信息， $C$ 表示该实例的类别

从前景点集里面随机 $N_F$ 个前景点云 $F$ （默认1000个）,从背景点集里面随机选择 $N_E$ 个背景点 $E$ （默认500个）
计算个前景点的形心，分别计算前景点和背景点相对于形心的偏移量 $O_{F_{i}}=\left(u_{i}^{F}-u_{c}^{F}, v_{i}^{F}-v_{c}^{F}\right), O_{E_{i}}=\left(u_{i}^{E}-u_{c}^{F}, v_{i}^{E}-v_{c}^{F}\right)$
颜色信息直接取原始的像素信息 $C_{F_{i}}=\left(R_{i}^{F}, G_{i}^{F}, B_{i}^{F}\right), C_{E_{i}}=\left(R_{i}^{E}, G_{i}^{E}, B_{i}^{E}\right)$
类别信息为one-hot的向量（其中类别也算作单独的类别）： $\left\{H_{j} \mid j=1, \ldots, Z\right\}$ $Y_{E_{i}}=H_{\mathcal{C}_{i}}, \mathcal{C}_{i} \in[1, Z]$
Bbox位置信息：4个维度的坐标，不区分前景背景，单独提取一个64维度的Embedding特征
前景特征提取分支：
- 前景特征利用offset和color两类信息，通过MLP分别提取特征
- 考虑到前景点中，基于直觉较突出的点应具有较高的权重，而其他的也应考虑，可以给与较低的权重，因此，引入了Point weighting层来对所有前景点进行加权
- Max pooling 用于选择突出的关键点，Average pooling用于从所有点中选择平均特征
背景特征提取：
- 使用offset ,color,category三个信息提取特征，加入类别信息的原因是背景点中可能包含其他的实例信息，如（人，车，纯背景等）需要进一步区分
- 直接使用的Max pooling
位置特征提取：
- 位置特征提取参考Transformer将其编码为64维度embeding特征

最后联合前景特征、背景特征、位置特征使用MLP提取用于关联匹配的Embedding特征：

$M=\mathbf{M} \mathbf{L} \mathbf{P}\left(M_{F}+M_{E} + M_{P}\right)$

2. Online Track Association

数据关联阶段SORT ,DeepSORT使用的是匈牙利二分匹配算法,在相似性分数设计上，采用Embeding的欧式距离 $D\left(M_{i}, M_{j}\right)$ 和分割mask的分割交并比 $U\left(C_{s_{i}}, C_{s_{j}}\right)$ 的线性融合综合度量

$S\left(C_{s_{i}}, C_{s_{j}}\right)=-D\left(M_{i}, M_{j}\right)+\alpha * U\left(C_{s_{i}}, C_{s_{j}}\right)$

3. Instance segmentation with Temporal Seed Consistency

实例分割经典框架是两阶段的Mask-RCNN,精度高，速度慢，本文采用了一阶段SpatialEmbedding分割网络，精度和速度相对都比较高。作者分析该网络的badcase发现，针对网络的时间一致性问题提出时域一致性损失改进该网络。

SpatialEmbedding的backbone遵循两个独立解码器的编码器-解码器结构,在解码器之后单独分出两支：（i）seed map 解码器， seed map 解码器为所有分割实例预测中心位置。ii）inst map 解码器：预测要指向相应实例中心的矢量的偏移量offset map 和该像素点偏移量的容忍方差sigma map。再推理的时候对于当前像素的位置加上offset的预测中心点，如果seed map推理的中心点，在预测的中心点容忍方差范围内，则将当前像素赋予seed map推理的中心点对应的那个实例，由此完成实例分割过程。

作者分析SpatialEmbedding分割网络的bad case的时候，发现前后连续帧之间的seed map不一致，便借助光流将前一帧的seed map传播到当前帧，用于监督当前帧的seed map, 保证seed map的时域一致性。如下式子，其中 $S^{T-1}$ 表示第T-1帧的seed map ,O表示光流传播计算（本文采用VCN网络提取光流） $\widehat{S^{T}}=O\left(S^{T-1}\right)$ ：，则时域一致性损失定义为：

$L_{t c}=\frac{1}{N} \sum_{i}^{N} \| \hat{S_{i}^{T}-S_{i}^{T} \|^{2}}$

最终的网络结构如下图：

Experiments

实验分为四个部分。

跨三个数据集评估PointTrack：KITTI MOTS]，MOTSChallenge和Apollo MOTS数据集,其中Apolo MOTS是本文提出的数据集，比KITTI MOTS数据集有更多的数据，且场景更加crowded,场景中的车辆密度是KITTI的2.5倍
数据模态的消融研究
为了调查PointTrack从2D点云中学到的内容，我们将预测的实例Embedding和关键跟踪可视化
在官方的KITTI MOTS测试仪上提供结果。

1.三个数据集上的评估：在三个数据集合上都取得SOTA的结果，证明了模型的鲁棒性，在sMOTSA和MOTSA上，PointTrack分别比当前方法高出3.5％和5.4％，同时也证明了本文时域一致性（TC）损失对PointTrack涨点有效

2.多模态数据消融实验：通过依次删除四种数据模式以确定它们对性能的影响。当删除颜色数据时，性能下降最大。相比之下，移除位置数据时的性能下降是最小的。这种性能差异的差异表明，pointTrack更加关注外观特征和环境特征，而较少依赖边界框位置来关联实例，从而实现更高的跟踪性能和更低的ID-switch。

3.Embedding和关键点可视化

Embedding可视化：使用t-SNE方法将embedding特征压缩到二维空间可视化，途中不同颜色代表不同轨迹，文中选择了35条轨迹，每条轨迹选择前后连续20个Embedding特征作为样本可视化，如下图。作者发现：轨迹的Embedding 呈现两种不同的形状：（i）线性分布（轨迹9、13、20）；（ii）球形分布（轨迹7、26、32）。进一步对比视频原图发现，线性的轨迹，目标多与相机的较大相对运动。他们是迎面而来的汽车或固定汽车。对于球形的轨迹，大多数是方向相同且相对运动较小的汽车。

关键点可视化：关键点可视化分为前景点和背景点，红色代表前景点，黄色代表背景点
- 关键前景点：选择point weighting层预测的权重前10％的点做为关键前景点，用红色绘制。关键的前景点聚集在汽车眼镜和汽车灯周围。这些点的偏移量对于学习车辆的形状和姿势至关重要。同样，它们的颜色对于概述实例外观和光分布也很重要。此外，我们发现，即使遮挡了不同的部分（第一组的第二列和第五列），或者汽车移动到图像边界（第一组的第四列），PointTrack也会保持连续帧中加权点的一致性。这种连续帧上点加权的一致性显示了point weighting 层的有效性
- 关键背景点：对于背景点，用黄色可视化五个最关键点，这些点的选择是先在背景分支的最max pooling层之前获取大小为256 * 的张量，然后收集所有值的最大值的索引。在这256个索引中，选择属于五个最常见索引的点。如图所示，当实例与任何其他实例相邻时，黄点通常会聚集在附近的实例上。作者认为当将category分类信息与offset位置信息组合时，背景点可以提供比较强的上下文信息，以促进MOT的实例关联。关键背景点的分布验证了PointTrack从背景点中学习了区分性上下文特征。