1. BaseInfo
Title | Putting the Object Back into Video Object Segmentation |
Adress | https://arxiv.org/pdf/2310.12982 |
Journal/Time | CVPR 2024 |
Author | 伊利诺伊大学厄巴纳-香槟分校、Adobe Research |
Code | https://github.com/hkchengrex/Cutie |
Table | Segmentation |
2. Creative Q&A
视频对象分割 : 在整个视频剪辑序列中对特定对象进行分割。属于实例分割的一种。 给出第一帧对象掩码和目标,以便在其余视频帧中分割目标对象。
- 自下而上的像素级内存读取,由于匹配噪声,特别是在存在干扰物的情况下,这种读取会很困难-> 自上而下的像素和特征。通过调整一小组对象查询来执行自上而下的对象级内存读取,query-based object transformer。
- 前景和背景的掩码注意力。分割前景背景清晰。
- 在 MOSE 数据集上的经典 VOS 方法降低了很多 -> 对象级别的存储。 object-level memory reading。获得长期对象特征。
3. Concrete
将 mask 作为 F ,对象存储利用 S 表示。低像素
R
0
R_0
R0
3.1. Model
- object transformer
先 Foreground-Background Masked Attention 实现如下图,其次加入位置编码
- object memory
Pixel Memory 使用的是 XMem中的。
Feed-Forward Networks (FFN).
- For the query FFN, we use a 2-layer MLP with a hidden size of 8C = 2048.
- For the pixel FFN, we use two 3 × 3 convolutions with a smaller hidden size of C = 256 to reduce computation.
- 激活函数 ReLU
3.1.1. Input
s视频序列(一帧帧的图片) 参照 YouTube-VOS 格式
3.1.2. Backbone
ResNet 18(small) 、ResNet 50(base)
C = 256 channels with L = 3 object transformer blocks and N = 16 object queries.
3.1.3. Neck
3.1.4. Decoder
与 XMem 类似的结构,但上采样块的通道数减半。
3.1.5. Loss
使用点监督进行损失计算。
使用重要性抽样,在预训练期间设置 K = 8192,在主要训练期间设置 K = 12544。
CE 和 soft dice loss 权重相等。
3.1.6. Optimizer
AdamW learning rate of 1e−4
3.2. Training
a batch size of 16, and a weight decay of 0.001.
预训练阶段 for 80K iterations 无学习率下降.
主训练阶段 for 125K iterations, 在100K and 115K iterations 学习率放缩 reduced by 10 times .
The query encoder has a learning rate multiplier of 0.1 following to mitigate overfitting.
利用 DEVA 的 tricks,将全局梯度范数剪定为 3,并使用稳定的数据增强。
3.2.1. Resource
A100 * 4 , 大概 30 小时。
3.2.2 Dataset
Dataset | Year | Videos | Categories | Objects | Annotations | Duration (min) | mBOR | Disapp. Rate |
---|---|---|---|---|---|---|---|---|
DAVIS-2016 | 2016 | 50 | - | 50 | 3,440 | 2.28 | - | - |
DAVIS-2017 | 2017 | 90 | - | 205 | 13,543 | 5.17 | 0.03 | 16.1% |
YouTube-VOS | 2018 | 4,453 | 94 | 7,755 | 197,272 | 334.81 | 0.05 | 13.0% |
MOSE | 2023 | 2,149 | 36 | 5,200 | 431,725 | 443.62 | 0.23 | 41.5% |
“mBOR”: mean of the Bounding-box-Occlusion Rate. “Disapp. Rate”: the frequency of disappearance objects.
3.3. Eval
Jaccard index J , contour accuracy F, and their average J &F
3.4. Ablation
- 超参数选择
4. Reference
AOT Series Frameworks in PyTorch
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model
DEVA: Tracking Anything with Decoupled Video Segmentation
Video Object Segmentation VOS视频目标分割-CSDN 介绍
5. Additional
Cutie 这篇拖了很久了,今年 5 月份就在看这篇了,8月又重拾,得完整写一下。
在 SAM2 没出之前是多个视频实例分割部分的 SOTA 。
作者是一直在自己的方法上不断改进。
STCN(NeurIPS 2021) -> XMem(ECCV 2022)-> DEVA (ICCV 2023) -> Cutie(CVPR 2023)
代码上手很快。配好环境后参考 docs 文件夹下的文档,可以直接推理,尝试训练过但会出现 nan。
Cutie/cutie/config/
超参配置都在这里了。利用其 mega 的pth, 直接推理可以达到官方的实验结果。
附录内容充分,实验内容详实。
一些仍存在问题:
- 对象的消失-出现方面。有必要为 VOS 方法开发更强大的关联/再识别算法,以便能够追踪消失后又重新出现的物体。尤其有趣的是,我们注意到一些消失后又再次出现的物体在再次出现时的外观与消失时不同,即外观变化物体。
- 遮挡物体的视频物体分割。遮挡使得框初始化半监督 VOS 设置在通过边界框分割遮挡物体方面更具挑战性。
- 关注小物体和不显眼物体。
- 跟踪人群中的物体。如成群结队的绵羊、成群结队的自行车赛车。在图像/帧领域,视频对象分割算法需要增强识别能力,以区分具有相似外观和运动的不同对象。
- 长期视频分割。
它们无法消除外观和位置相似的对象的歧义。这方面的潜在未来工作方向是编码三维空间理解(即,遮挡的鸟离相机更近)。