Segment as Points for Efficient Online Multi-Object Tracking and Segmentation
Segment as Points for Efficient Online Multi-Object Tracking and Segmentation
TL;DR
当前的主流的多目标检测分割方法都是采用tracking-by-detection的范式,这种采用卷积进行特征提取会受固有感受野的影响,会不可避免地将前景特征和背景特征混合在一起,从而在MOT后续实例关联任务中产生歧义。 本文提出了一种tracking-by-points的新范式,PointTracker ,通过将紧凑的图像表示转换为无序的2D点云表示,从而方便地将多模态的数据(颜色、位置、类别等)转换为点状向量表示,以更丰富的特征学习关联匹配的embedding。在KITTI MOTS,MOTS Challenge和本文提出的Appolo MOTS上都取得了SOTA的成绩,并且能够达到22FPS的实时性。
TL;DR
Motivation
-
由于实例分割精确地描绘了可见实例的边界,并自然地分开了邻接实例,因此MOTS与基于边界框(bbox)的方法相比,不仅提供像素级分析,也有利于学习到更多的区分性实例的embedding特征。
-
采用卷积进行特征提取embedding会受固有感受野的影响,会不可避免地将前景特征和背景特征混合在一起,从而在MOT后续实例关联任务中产生歧义,所以本文提出了再将有序的二维图像转化为无序的二维点云表示,从前景背景分别采样不同点云提取前景背景特征,避免前/背景信息混合。
Methods
1.Context-aware instance embeddings extraction
Embedding 特征提取总体思路:将带有上下文的Bbox中的像素按照分割mask分为前景F和背景E,分别在前景和背景中采样,以颜色、位置、类别组合构建采样点特征,所有采样点构成无序点云通过MLP提取embeding特征。
实现细节:对于一个分割实例 ,它的分割记为,外接矩形记为,为了让bbox中包含上下文信息,通常bbox向上下左右按照尺度因子(k=0.2)扩大一定区域,记为,通过分割mask可以确定内的前景点和背景点.每个样本点的有6个维度特征,其中是图像平面上的相对于实例中心的偏移量,是三通道的颜色信息,表示该实例的类别
-
从前景点集里面随机个前景点云(默认1000个),从背景点集里面随机选择 个背景点(默认500个)
-
计算个前景点的形心,分别计算前景点和背景点相对于形心的偏移量
-
颜色信息直接取原始的像素信息
-
类别信息为one-hot的向量(其中类别也算作单独的类别):
-
Bbox位置信息:4个维度的坐标,不区分前景背景,单独提取一个64维度的Embedding特征
-
前景特征提取分支:
-
前景特征利用offset和color两类信息,通过MLP分别提取特征
-
考虑到前景点中,基于直觉较突出的点应具有较高的权重,而其他的也应考虑,可以给与较低的权重,因此,引入了Point weighting层来对所有前景点进行加权
-
Max pooling 用于选择突出的关键点,Average pooling用于从所有点中选择平均特征
-
-
背景特征提取:
-
使用offset ,color,category三个信息提取特征,加入类别信息的原因是背景点中可能包含其他的实例信息,如(人, 车,纯背景等)需要进一步区分
-
直接使用的Max pooling
-
-
位置特征提取:
-
位置特征提取参考Transformer将其编码为64维度embeding特征
-
最后联合前景特征、背景特征、位置特征使用MLP提取用于关联匹配的Embedding特征:
2. Online Track Association
数据关联阶段SORT ,DeepSORT使用的是匈牙利二分匹配算法,在相似性分数设计上,采用Embeding的欧式距离和分割mask的分割交并比 的线性融合综合度量
3. Instance segmentation with Temporal Seed Consistency
实例分割经典框架是两阶段的Mask-RCNN,精度高,速度慢,本文采用了一阶段SpatialEmbedding分割网络,精度和速度相对都比较高。作者分析该网络的badcase发现,针对网络的时间一致性问题提出时域一致性损失改进该网络。
SpatialEmbedding的backbone遵循两个独立解码器的编码器-解码器结构,在解码器之后单独分出两支:(i)seed map 解码器, seed map 解码器为所有分割实例预测中心位置。ii)inst map 解码器:预测要指向相应实例中心的矢量的偏移量offset map 和该像素点偏移量的容忍方差sigma map。再推理的时候对于当前像素的位置加上offset的预测中心点,如果seed map推理的中心点,在预测的中心点容忍方差范围内,则将当前像素赋予seed map推理的中心点对应的那个实例,由此完成实例分割过程。
作者分析SpatialEmbedding分割网络的bad case的时候,发现前后连续帧之间的seed map不一致,便借助光流将前一帧的seed map传播到当前帧,用于监督当前帧的seed map, 保证seed map的时域一致性。如下式子,其中 表示第T-1帧的seed map ,O表示光流传播计算(本文采用VCN网络提取光流) :,则时域一致性损失定义为:
最终的网络结构如下图:
Experiments
实验分为四个部分。
-
跨三个数据集评估PointTrack:KITTI MOTS],MOTSChallenge和Apollo MOTS数据集,其中Apolo MOTS是本文提出的数据集,比KITTI MOTS数据集有更多的数据,且场景更加crowded,场景中的车辆密度是KITTI的2.5倍
-
数据模态的消融研究
-
为了调查PointTrack从2D点云中学到的内容,我们将预测的实例Embedding和关键跟踪可视化
-
在官方的KITTI MOTS测试仪上提供结果。
1.三个数据集上的评估:在三个数据集合上都取得SOTA的结果,证明了模型的鲁棒性,在sMOTSA和MOTSA上,PointTrack分别比当前方法高出3.5%和5.4%,同时也证明了本文 时域一致性(TC)损失对PointTrack涨点有效
2.多模态数据消融实验:通过依次删除四种数据模式以确定它们对性能的影响。 当删除颜色数据时,性能下降最大。 相比之下,移除位置数据时的性能下降是最小的。这种性能差异的差异表明,pointTrack更加关注外观特征和环境特征,而较少依赖边界框位置来关联实例,从而实现更高的跟踪 性能和更低的ID-switch。
3.Embedding和关键点可视化
-
Embedding可视化:使用t-SNE方法将embedding特征压缩到二维空间可视化,途中不同颜色代表不同轨迹,文中选择了35条轨迹,每条轨迹选择前后连续20个Embedding特征作为样本可视化,如下图。作者发现:轨迹的Embedding 呈现两种不同的形状:(i)线性分布(轨迹9、13、20); (ii)球形分布(轨迹7、26、32)。 进一步对比视频原图发现,线性的轨迹,目标多与相机的较大相对运动。 他们是迎面而来的汽车或固定汽车。 对于球形的轨迹,大多数是方向相同且相对运动较小的汽车。
-
关键点可视化:关键点可视化分为前景点和背景点,红色代表前景点,黄色代表背景点
-
关键前景点:选择point weighting层预测的权重前10%的点做为关键前景点,用红色绘制。关键的前景点聚集在汽车眼镜和汽车灯周围。 这些点的偏移量对于学习车辆的形状和姿势至关重要。 同样,它们的颜色对于概述实例外观和光分布也很重要。 此外,我们发现,即使遮挡了不同的部分(第一组的第二列和第五列),或者汽车移动到图像边界(第一组的第四列),PointTrack也会保持连续帧中加权点的一致性。这种连续帧上点加权的一致性显示了point weighting 层的有效性
-
关键背景点:对于背景点,用黄色可视化五个最关键点,这些点的选择是先在背景分支的最max pooling层之前获取大小为256 * 的张量,然后收集所有值的最大值的索引 。 在这256个索引中,选择属于五个最常见索引的点。 如图所示,当实例与任何其他实例相邻时,黄点通常会聚集在附近的实例上。 作者认为当将category分类信息与offset位置信息 组合时,背景点可以提供比较强的上下文信息,以促进MOT的实例关联。 关键背景点的分布验证了PointTrack从背景点中学习了区分性上下文特征。
-
4.在KITTI MOTS TEST数据集测试:取得soto的结果, 从MOTSA指标上看,PointTrack在汽车上和行人上比MOTSFusion超出了6.8%和3.6%。