【论文阅读】SwiftNet: Real-time Video Object Segmentation

最新推荐文章于 2024-03-22 00:04:34 发布

Lies.

最新推荐文章于 2024-03-22 00:04:34 发布

阅读量821

点赞数

分类专栏：视频实例分割文章标签：论文阅读计算机视觉人工智能深度学习神经网络

本文链接：https://blog.csdn.net/weixin_46564151/article/details/130112931

版权

视频实例分割专栏收录该内容

3 篇文章 2 订阅

订阅专栏

CVPR 2021的文章，论文链接：SwiftNet: Real-time Video Object Segmentation

abstract

one-shot VOS: semi-supervised video object segmentation

给定第一帧的标注，像素级定位被标注的物体
PAM: Pixel-Adaptive Memory，压缩了基于匹配的VOS的时空冗余
- 时间上：当物体表现出值得注意的帧内变化时，就自适应更新memory
- 空间上：选择性的进行memory的更新，在动态像素上做匹配，忽略静态的像素，极大的减少浪费在无关分割的像素上的冗余计算
light-aggregation encoder，deploying reversed sub-pixel

intro

one-shot VOS通常采用基于匹配的策略，目标物体首先从历史参考帧中建模，然后在incoming query上做精确匹配
real-time VOS要求非常好的物体建模（特征抽取）和匹配计算

作为一种妥协，目前的方法都单独追求高精确度而忽略了速度
memory-based method在对物体变化建模的过程中使用所有的历史帧和非局部的reference-query matching

调度这些参考帧，应用复杂的匹配策略不可避免的会降低分割速度
通过减少参考帧数量，使用轻量级匹配策略，加速分割
- mask-propagation strategy，只使用第一帧和最后一参考帧来对当前帧做分割
- 高效的pixel-wise matching，region-wise distance measuring和correlation filtering用以减少计算量
这些方法虽然加快了分割速度，但是准确率又下降了非常多
本文作者认为：
- accurate methods，由于时空冗余，无法很高效的进行
- fast methods，不加区别的减少这种冗余，所以精确度不行
处理时间 $\mathcal{T}$ 与reference frames’ pixels $\mathcal{N}_r$ 和query frames’ pixels $\mathcal{N}_q$ 的数量呈正相关
The spatiotemporal redundancy denotes that Nr is populated with pixels not beneficial for accurate segmentation
- 时间上：将所有参考帧都用作参考建模，无物体变化的静态帧被重复建模，包含了物体变化信息的动态帧受到的关注不够
- 空间上，整幅图都用于匹配，大多数静态的像素对分割来说都是冗余的
因此高效的压缩pixel-wise redundancy就可以做到精确度和速度兼顾
SwiftNet用encoder-decoder结构实例化基于匹配的分割，时空冗余在本文提出的PAM(Pixel-Adaptive Memory)中被压缩
- 在时间上：variance-aware trigger module，计算帧间差异，自适应激活memory update，只更新具有差异的帧，而忽略静态帧
- 在空间上：
  1. pixel-wise memory update，衡量帧间相似性，判断一个像素子集是否有利于memory，然后递增式的将它的特征表达加进memory，忽略冗余的
  2. pixel-wise memory match，压缩了耗时的非局部计算
为了进一步加速，PAM配备一个新提出的LAE(light-aggregation encoder)，抛弃冗余特征提取，enables multi-scale mask-frame aggregation leveraging reversed sub-pixel operations

SwiftNet

两大模块：PAM（包括variation-aware trigger、pixel-wise memory update和match module）和LAE

问题定义

视频序列 $V=\{x_1,x_2,\cdots,x_T\}$ ，其中第一帧 $x_1$ 的标注mask为 $y_1$ ，one-shot VOS的目标是对每一帧 $t$ 都生成物体的mask $y_t$ ，从背景中分辨物体

在相关工作中提到，VOS方法的实施主要分为两个阶段：

对第 $t$ 帧做object modeling

历史信息包含在reference frames（ $\{x_1,x_2,\cdots,x_{t-1}\}$ 和 $\{y_1,y_2,\cdots,y_{t-1}\}$ ）中，需要从中建立object model $M_{t-1}$ ：

$M_{t-1}=\phi\bigl(I(1)\cdot EnR(x_1,m_1),I(2)\cdot EnR(x_2,m_2),\cdots,I(t-1)\cdot EnR(x_{t-1},m_{t-1})\bigr)$

其中 $\phi(t)$ 是indicator function，用于标识第 $t$ 帧是否参与了建模； $EnR(\cdot)$ 是用于特征提取的reference encoder； $\phi(\cdot)$ 用于表示物体建模过程
reference-query matching，即在 $x_t$ 中以像素级方式搜索 $M_{t-1}$ ，生成物体对象关系映射 $A_t$

$A_t=\gamma\bigl(M_{t-1},EnQ(x_t)\bigr)$

其中 $\gamma$ 是像素级匹配运算， $EnQ(\cdot)$ 是query encoder

最终的分割结果mask由一个decoder产生，这个decoder综合了编码后的feature和 $A_t$

分割的过程：

在这里插入图片描述

顺着上图的顺序，先执行实黑线表示的操作生成分割掩码，然后用虚线进行内存更新。对于将要分割的query frame $x_t$

通过query encoder得到query key feature $K_{Q,t}$ 和query value feature $K_{R,t}$
query feature通过pixel-wise memory match module得到object affinity map $A_t$
将query feature和object affinity map一起通过decoder得到分割结果 $y_t$
将 $x_{t-1},y_{t-1},x_t,y_t$ （即相邻两帧的rgb图像和分割mask）通过variation-aware trigger module来判断是否需要更新memory，如果需要，则由LAE完成memory update

这里其实我有一个想法，因为SwiftNet进行memory update之前需要经过reference encoder再进行一次编码（不同于query encoder），而STCN中只需要通过一次encoder，显然更优。同时STCN并没有考虑到对memory更新的取舍问题，二者的结合应该会有不错的效果

当然还需要对两种方法的encoder结构进行一定的分析，看看上述方法是否可行

PAM (Pixel-Adaptive Memory)

这部分是SwiftNet的核心，对物体运动进行建模，进行物体匹配，同时压缩了时空冗余，PAM主要由三个部分构成：variation-aware trigger，pixel-wise memory update，match modules

variation-aware trigger

利用所有帧的信息作为参考来建立时序一致性的物体变化显然是很好的，但是会造成难以容忍的计算冗余，先前的工作利用了一种简单的解决方式：从reference frames中以一个预定义的步长进行采样，但是这种方法会不加区分的去除一些信息，导致精确度大减

为了准确有效的压缩冗余，variation-aware trigger计算了帧间变化幅度，一旦积累的变化幅度超过了预设的阈值 $P_{th}$ ，就激活memory update

具体来说，SwiftNet的帧间变化幅度包括图像差异 $D_f$ 和maks差异 $D_m$ ，对每个像素 $i$ 都需要计算：

$D_f^i=\sum_{c\in\{R,G,B\}}\frac{|x_t^{i,c}-x_{t-1}^{i,c}|}{255}$

$D_m^i=|y_t^i-y_{t-1}^i|$

$D_f$ 是各通道值的差异的总和，有点直方图的感觉

$D_m$ 就只是衡量mask的差异

二者都用了曼哈顿距离作为衡量，是否欧式距离会是一个更好的选择？

总的运动变化程度为 $P$ ：

$P=\begin{cases}P+1,&\text{if $D_f^i>th_f$ and $D_m^i>th_m$}\\P,&\text{otherwise}\end{cases}$

如果 $P>P_{th}$ ，PAM则进行一次memory update，在实验中， $P_{th},th_f,th_m$ 分别设置为200，1，0

这里这个手动设置的阈值显然对数据集有依赖作用，还有更好的解决方式，比如重投影误差之类的

pixel-wise memory update

如果variation-aware trigger激活，则会对memory进行一次更新，按照现有方法的策略，在memory中更新参考帧时会将整张图像添加进memory，但是图像中大部分像素点并不会对分割提供帮助，因此存入整张图像免不了带来极大的存储空间浪费和计算冗余

在流程图①所示的过程中已经得到了query key feature $K_{Q,t}\in \mathbb{R}^{H\times W\times \frac{C}{8}} $和query value feature $V_{Q,t}\in \mathbb{R}^{H\times W\times \frac{C}{2}}$ ，在此过程中会产生不同尺度的特征图，当图像通过EnQ时，这些特征图都会暂存起来，如果不需要进行memory update则将这些特征图丢弃即可，如果需要进行memory update，则需要结合LAE结构（EnR）进一步进行编码得到 $K_{R,t}$ 和 $V_{R,t}$
$t - 1$ 时刻的memory表示为 $M_{t-1}$ ，其中共有 $k_{t-1}$ 个像素的信息，表示为 $K_{R,t-1}\in \mathbb{R}^{(k-1)\times\frac{C}{8}}$

为了去掉冗余像素的影响，pixel-wise memory update使用余弦相似度衡量 $K_{Q,t}$ 和 $K_{R,t-1}$ 之间的稠密图 $S\in \mathbb{R}^{HW\times (k-1)}$

具体来说：

在这里插入图片描述

我们将 $H\times W\times \frac{C}{8}$ 的 $K_{Q,t}$ 展开（flatten）为 $HW\times \frac{C}{8}$ 大小，然后计算cosine similarity matrix：

$S^{i,j}=\frac{K^i_{Q,t}\cdot K^j_{R,t-1}}{||K^i_{Q,t}||\cdot||K^j_{R,t-1}||}$
得到该稠密相似图之后，为每个像素选择相似度最大的memory中的向量，即：

$s_i=\underset{j}{\arg \max} S[i,:]$
步骤2中得到的向量 $s$ 的长度是 $HW\times1$ ，然后将 $s$ 按照相似度值进行排序，选择相似度最大的 $\beta \%$ 个像素，这些像素表示了severe feature variations
按3中选择出的像素，将这些像素位置所对应的 $K_{R,t}$ 和 $V_{R,t}$ 加入memory中，完成更新