CVPR'24开源 | 无惧遮挡!Meta发布清晰、通用、实时的光流估计!

点击下方卡片,关注「计算机视觉工坊」公众号
选择星标,干货第一时间送达

作者:Shuai Yuan | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

911499cf1d6d78e5d916f643e84cc520.jpeg

1. 读者个人理解

光流估计涉及在视频帧之间找到像素级的对应关系,这在视频理解、视频编辑和自动驾驶等领域有着广泛的应用。遵循计算机视觉中深度学习的最新趋势,大多数最近的方法都将光流问题建模为受监督学习框架下的问题,其中使用地面真实标签来训练网络。然而,由于通常需要跨多个传感器进行精确校准,从而导致标注成本极高,因此在真实视频中获取这些标签尤为困难。这一缺点使得这些受监督技术难以应用于大规模的真实应用场景。

由于标注成本高昂,近期的许多工作都集中在无监督训练的光流上。无监督光流网络不依赖于地面真实标签,而是依靠两个关键原则来定义损失。首先,亮度恒定假设跨帧对应的点应该保持相似的局部外观。其次,光流场应该在空间上平滑。然而,这些假设在遮挡区域(前景对象覆盖了背景外观)和运动边界周围(运动突然中断)处受到了损害。这些问题在真实应用中普遍存在,对无监督光流提出了巨大挑战。

从根本上讲,遮挡和运动边界的问题都源自光流的低级性质,其中通常缺少对象级别信息。为了更好地处理遮挡,重要的是理解对象之间的空间关系和相互作用。此外,光流应该仅在同一连续对象区域内平滑,而在对象边缘附近允许出现锐利的运动边界。因此,对象级信息可能在改进无监督光流中发挥关键作用。事实上,一些先前的方法已经探讨了聚合对象信息,使用语义分割来帮助光流。然而,尽管方便,但语义分割的使用并不精确,因为它不区分相同语义类别的不同实例,这些实例可能具有截然不同的运动。它还受到定义的有限类别数量的限制,并且可能无法识别开放世界中的新对象。相比之下,最新的 Segment Anything Model(SAM)可能是一个更好的选择。SAM 是一个通用的图像分割模型,在非常大而多样的数据集上进行了预训练。它可以分离不同的实例,并且已经展示了在训练中未见过的对象上令人印象深刻的零样本性能。此外,SAM 可以检测不同尺度和级别的对象,甚至分割小的对象部分(如手和胳膊)。这可以降低复杂性,并有助于分别区分对象部分的运动。

受此激励,我们将 SAM 作为附加的对象级信息集成到无监督光流中,这可以通过三种新的适应方式实现。我们首先从 SemARFlow中调整语义增强模块,以便基于 SAM 掩码进行自监督训练。此外,我们使用基于单应性的新区域平滑损失在每个 SAM 段内强制执行平滑运动。这种方法有效地纠正了许多不一致的流异常值。最后,我们设计了一个掩码特征模块,以增强相同 SAM 掩码的特征的鲁棒性。

我们的方法通过定量和定性评估在KITTI和 Sintel基准上显著优于先前的方法。值得注意的是,我们的网络在KITTI-2015上达到了7.83%的测试错误率,明显优于最先进的UPFlow(9.38%)和 SemARFlow(8.38%)。我们的方法产生了更清晰、更锐利的运动,与 SAM 掩码保持一致。广泛的消融研究也证明了每个提出的适应方式的有效性,进一步的分析显示,我们的方法在不同领域具有良好的泛化能力,并且运行效率高。

2. 导读

传统的无监督光流方法容易受到遮挡和运动边界的影响,因为缺乏物体级别的信息。因此,我们提出了UnSAMFlow,这是一个无监督光流网络,还利用了最新的基础模型Segment Anything Model(SAM)中的物体信息。我们首先包含了一个针对SAM掩模量身定制的自监督语义增强模块。我们还分析了传统平滑损失的梯度景观不佳,并提出了一个基于单应性的新平滑度定义。此外,我们还添加了一个简单但有效的掩模特征模块,以进一步在物体级别上聚合特征。通过所有这些适应性调整,我们的方法产生了清晰的光流估计,在物体周围具有清晰的边界,优于KITTI和Sintel数据集上的最新方法。我们的方法在不同领域也具有很好的泛化能力,并且运行非常高效。

3. 效果展示

UnSAMFlow利用SAM中的对象级信息生成具有清晰边界的光流。

26e79d95a9ec433a89f7e751168312ba.png

4. 主要贡献

我们的贡献如下。

• 据我们所知,我们是第一个有效地将 SAM与无监督光流估计相结合,这有助于在没有地面真实标签的情况下学习广泛范围内的真实世界视频的光流。

• 我们通过可视化分析了先前平滑损失的问题,并提出了一种基于单应性和 SAM 的新平滑损失定义作为解决方案。

• 我们展示了如何处理、表示和聚合 SAM 掩码到神经网络中,这可以直接扩展到使用 SAM 的其他任务中。

5. 基本原理是啥?

我们的网络结构。红色部分突出显示我们的掩模特征适应("+mf"),仅在我们的第二设置中应用,其中SAM掩模M1和M2被用作网络的附加输入。

93aef94c9e2cf4ebddbb3151840f3264.png

传统边界感知平滑损失效果差的一个例子。(a)叠加了SAM完整分割的原始图像;(b)图像补丁;(c)我们基准模型估计的光流与SAM边界(黑色)叠加;(d)传统边界感知平滑损失的梯度;(e)我们提出的单应性平滑损失的梯度;(f)传统平滑损失的不良景观示意图。请注意,对于(d)(e)中的梯度,我们使用基于L2范数的损失定义以获得更好的可视化效果。

39d83182cf18bec923320ad3d98c3d3c.png

所提出的Mask特征模块。

9b5e9eefc559fe8f14766f4c02319faf.png

6. 实验结果

我们的基准测试结果显示在Tabs. 1和2中。我们的最终模型在所有三个调整中明显优于最先进的无监督方法,无论是在KITTI还是Sintel数据集上,几乎在所有评估指标上都表现出色。我们的最终模型在KITTI-2015测试集上达到了7.84%的错误率,远远优于UPFlow(9.38%)和ARFlow(11.80%,我们从中进行了调整的骨干网络)。所有这些结果都显示了利用SAM模型进行无监督光流训练的好处。

b10346433caef9c008addfd72c03a66f.png f78cb994ecf981cf489317cd0c750196.png

在Tabs. 1和2中,我们还可以看到,随着我们逐渐将每个提出的模块添加到网络中,我们的错误逐渐下降。这证明了我们所有提出的调整的有效性。此外,对于我们不使用SAM掩码作为网络输入的设置("+aug +hg"),我们的模型在两个数据集上也优于最先进的方法。这意味着我们的方法有潜力通过优化训练来增强无监督流网络,由SAM引导,在推理过程中不引入任何额外的计算开销。

值得注意的是,与Sintel中的动画图像相比,我们的网络在KITTI等真实数据集上特别从SAM中获得了实质性的改进。这是因为SAM主要是在真实生活图像上进行训练的,所以它为KITTI生成的掩码质量比为Sintel生成的掩码要高。

Tab. 3显示了当前基于语义引导的光流方法之间的比较。我们的SAM引导模型超越了以往所有基于语义或实例分割的方法,即使SAM没有在KITTI上进行训练。这表明了SAM作为一种零样本通用语义模型在其他任务(如光流估计)中直接使用的巨大潜力。

50a8fe389a67fe125715d3e42c007713.png

Figs. 6和7展示了我们最终模型的一些定性示例,与以前的最先进方法进行比较。我们可以看到,我们的网络在物体周围产生了更好的流动,边界更加清晰,这与SAM掩码输入一致。由于SAM提供了强大的掩码,我们的方法还可以更好地处理不同的光照条件(黑暗阴影、明亮反射)。

300916198c6d7e10fe98b5aa6198fcfa.png d861baeac4152bec77eea34dc464c1c5.png

7. 总结 & 限制性

我们提出UnSAMFlow,一种由Segment Anything Model (SAM)中的对象信息指导的无监督光流网络,具有三种新的适应性,即语义增强、单应性平滑和掩码特征相关性。我们的方法取得了最先进的结果,并展现出明显的改进。

我们的性能依赖于SAM掩码的准确性,对于存在严重照明问题、伪影或运动模糊的样本可能会受到影响。SAM输出中缺乏语义类别也使其对象信息不完整,需要未来的改进。

8. 参考

[1] UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

6fbb7292f2644dfb95be0ade02133cc4.png
▲长按扫码添加助理
3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
50938184f4a1ec6cfa312ffd623449ed.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
81835b458d6a7e2c1aee013a66440d91.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
923d9bec53156c91ede38ab39c903244.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
a4bf8475ca928253a6318826fc374b85.png硬件+源码工坊智能ROS小车
35940436387db2e2058a03a2114c29d6.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
欢迎点个 在看, 你最 好看!
  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值