利用全局运动聚合学习估计隐藏运动,GMA,ICCV2021
code:nullGitCode——开源代码托管平台,独立第三方开源社区,Git/Github/Gitlabhttps://gitcode.net/u011622208/GMA
目的:应用合理的运动模型来准确估计被遮挡的运动。GMA定义的遮挡点是在当前帧中可见但在下一帧中不可见的点。以前的工作依赖CNN来学习遮挡,但收效不大,或者需要多帧并使用时间平滑度来推理遮挡。
总结:提出全局聚合运动模块 (GMA) ,可以加入RAFT中。GMA通过对图像自相似性进行建模,来更好地解决遮挡问题。GMA引一种基于transformer的方法,用于查找第一张图像中像素之间的远程依赖关系,并对相应的运动特征进行全局聚合。
方法:从Transformer网络中获得灵感。首先将上下文特征图投影为查询特征图和键特征图,用于对第一帧的外观自相似性建模。然后将两个特征图进行点积再进行softmax,得到注意力矩阵,该矩阵在外观特征空间中编码自相似性。将查询特征图与一组位置嵌入向量做点积,用位置信息扩充注意力矩阵。4D相关体编码的运动特征图使用学习的值来投影,运动特征本身就是相关体的编码。加权和使用刚得到的注意力矩阵,产生聚合的全局运动特征(GMA)。聚合的运动特征与局部运动特征以及上下文特征相连接,由GRU解码。
动机
全局运动聚合有助于解决由遮挡引起的歧义。遮挡——我们扩展到包括下一帧中消失的场景的任何部分——在光流估计问题中造成很大的模糊性,这是局部方法无法解决。基于一个物体上的点具有均匀运动的假设,这通常近似成立,我们提出全局聚合可能属于同一物体的像素的运动特征。在此示例中,刀片上的大多数像素从帧2移动到帧3。当只提供这两帧时,全局聚合允许运动信息从非被遮挡像素传递到被被遮挡像素,这有助于解决由被遮挡引起的歧义。
遮挡对依赖局部证据的光流算法提出了重大挑战。 我们认为一个被遮挡的点是在参考帧中成像但不在下一个,标准定义的轻微过载,因为它还包括移出帧的点。 估计这些点的运动非常困难,尤其是在两帧设置中。以前的工作依赖 CNN 来学习遮挡,但没有取得多大成功,或者需要多个帧来使用时间平滑度来推理遮挡。
解决的问题:
解决光流估计中被遮挡点的光流估计问题。在RAFT的基础上进行优化改进
解决方案:
- 两帧之间的运动信息,可以通过计算cost volume的匹配信息进行估计
- 当没有匹配信息时,基于这样一个假设,单个物体(在前景或背景中)的运动通常是均匀的,运动信息必须从其他像素开始传播
- 同时,对于每个像素理解他属于那个对象。也就是说,非被遮挡的自相似点的运动信息可以传播到被遮挡的点。
- CNN不适合做全局运动估计,因为CNN时局部的,transformer更适合做全局估计。
贡献
认为通过对图像自相似性进行建模,可以更好地解决两帧情况下的遮挡问题。
引入了全局运动聚合模块,这是一种基于变换器的方法,用于查找第一张图像中像素之间的远程依赖关系,并对相应的运动特征进行全局聚合。 我们证明了遮挡区域的光流估计可以显着提高,而不会损害非遮挡区域的性能。
这种方法在具有挑战性的 Sintel 数据集上获得了新的最先进的结果,在 Sintel Final 上将平均终点误差提高了 13.6%,在 Sintel Clean 上提高了 13.7%。 在提交时,我们的方法在所有已发表和未发表的方法中在这些基准上排名第一。
方法
提出的架构。我们的网络是基于成功的RAFT[38]架构。提出的全局运动聚合(GMA)模块包含在阴影框中,这是RAFT的自包含添加,具有低计算开销,显著提高了性能。它将视觉上下文特征和运动特征作为输入和输出聚合的运动特征,在整个图像中共享信息。然后将这些聚集的全局运动特征与局部运动特征和视觉上下文特征连接起来,由GRU解码为残差流。这使得网络可以灵活地根据特定像素位置的需要,在局部和全局运动特征之间进行选择或组合。例如,一个由遮挡引起的局部图像证据较差的位置,可能会偏好全局运动特征。
GMA模块的详细信息。为了对第一帧的自相似性进行建模,我们将上下文特征图投影到查询特征图和关键特征图中。然后,我们利用这两个特征映射的点积和一个softmax得到一个注意矩阵,它编码了外观特征空间中的自相似性。与变压器网络类似,我们也取查询特征图与一组位置嵌入向量之间的点积,这些位置嵌入向量用位置信息来增强注意矩阵。另外,利用学习值投影仪对相关体积编码的运动特征图进行投影。其加权和,利用得到的注意矩阵,产生聚合的全局运动特征。
全局运动假设
为了解决由遮挡引起的模糊性,我们的核心思想是允许网络在更高的层次上进行推理,即全局聚合相似像素的运动特征,并隐含地推断出哪些像素在外观特征空间中是相似的。我们假设,通过在参考坐标系中寻找具有相似外观的点,该网络将能够找到具有相似运动的点。这是由于观察到单个物体上的点的运动通常是均匀的。例如,一个向右跑的人的运动向量偏向于右,即使我们没有看到这个人的大部分由于遮挡而在匹配帧中结束,这也成立。我们可以利用这种统计偏差,将具有高(隐式)置信度的非被遮挡像素的运动信息传播到具有低置信度的被遮挡像素
1.1 全局聚合模块
查询和关键特征是上下文特征图的投影,用于建模第1帧中的外观自相似性。值特征是对运动特征的投影,而运动特征本身是对四维相关体积的编码。利用从查询和关键特征中计算出的注意矩阵来聚合作为运动的隐藏表示的值特征。
以上就是全局聚合特征的计算。 yi就是RAFT出来的运动特征, α是可学习参数。θ,ϕ,σ 分别是对查询,键,值的编码函数。f 是相似性计算函数。
其次,以上的全局聚合特征的计算还可以考虑加上位置编码的信息。
或者
Pj−i表示位置编码。
实验
讨论
实验证明,通过图像自相似性加权的长距离连接在解决被遮挡三维点的光流方面非常有效。
如果网络能够确定哪些非遮挡点以同样的方式运动,则可以将这些信息传递给"画中"遮挡点的运动。确定哪些点具有相似的运动特征是一项非平凡的任务,依赖于对统计偏差的利用。由于3D中的匀速运动,对于属于同一类的点,经常可以观察到类似的流矢量。这表明我们应该使网络能够聚合相同场景对象的运动,这促使我们选择将图像特征的自相似性显式地暴露给我们的GMA模块。然而,这种加性聚集只有在被关注位置的流场近似均匀时才有帮助。这并不完全适用于一般的物体和相机运动,其中流场可能远远不均匀,即使在同一个刚性物体上。一个例子是直接位于相机前方并绕光轴旋转的物体,其中流动矢量方向相反。为了应对这样的场景,未来可能的工作是首先基于相对位置变换运动特征,然后进行聚合。
结论
受到Transformer启发,引入了一个全局运动聚合模块,基于第一幅图像的外观自相似性对运动特征进行全局聚合。对遮挡区域的光流预测改善,特别是在Sintel Clean and Final上EPE的大幅减少。
提出的利用自相似性聚合长距离连接信息的方法是一种简单有效的将高阶推理引入光流问题的方法,适用于任何有监督的流网络。
参考:[论文翻译]Learning to Estimate Hidden Motions with Global Motion Aggregation(ICCV 2021)-CSDN博客