超越Depth Anything V2!中科大新作DepthMaster:驯服单目深度估计!

0. 论文信息

标题:DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

作者:Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

机构:University of Science and Technology of China、vivo Mobile Communication Co., Ltd.

原文链接:https://arxiv.org/abs/2501.02576

代码链接:https://indu1ge.github.io/DepthMaster_page

1. 导读

扩散去噪范式中的单目深度估计表现出令人印象深刻的泛化能力,但推理速度较低。最近的方法采用单步确定性范式来提高推理效率,同时保持可比的性能。然而,它们忽略了生成特征和区别特征之间的差距,导致了次优的结果。在这项工作中,我们提出了DepthMaster,一个单步扩散模型,旨在适应生成特征的判别深度估计任务。首先,为了减轻由生成特征引入的对纹理细节的过度拟合,我们提出了一个特征对齐模块,该模块结合了高质量的语义特征以增强去噪网络的表示能力。第二,为了解决单步确定性框架中缺乏细粒度细节的问题,我们提出了一个傅立叶增强模块来自适应地平衡低频结构和高频细节。我们采用两阶段培训策略,以充分发挥两个模块的潜力。在第一阶段,我们利用特征对齐模块学习全局场景结构,而在第二阶段,我们利用傅立叶增强模块来提高视觉质量。通过这些努力,我们的模型在泛化和细节保持方面达到了最先进的性能,在各种数据集上优于其他基于扩散的方法。

2. 效果展示

不同范式的可视化。“去噪”是指以扩散-去噪的方式预测深度。由于去噪网络的特征表示能力有限,预测往往过度拟合纹理细节,而忽略了真实结构,如第3列中的黄色方框所示。“stage!”通过特征对齐模块缓解了这个问题,但由于去除了迭代过程,输出变得模糊,如第4列中的红色方框所示。“Stage2”展示了最终通过傅里叶增强模块微调的模型,表现出优秀的泛化能力和精细的纹理细节。

图片

在不同数据集上与零样本单目深度估计方法的定性比较。我们的模型展示了出色的细节保持和结构捕获能力。得益干特征对齐模块,我们的模型避免了过度拟合纹理。

图片

3. 方法

我们提出了DepthMaster,这是一种定制扩散模型中的生成特征以适应区分性深度估计任务的方法。我们引入了一个特征对齐模块来减轻高质量外部特征对纹理细节的过度拟合,并引入了一个傅立叶增强模块来细化频域中的细粒度细节。

图片

4. 实验结果

表I展示了我们的方法与其他最先进(SOTA)的零样本单目深度估计方法的比较。表格的上半部分列出了数据驱动方法,而下半部分则侧重于基于扩散模型的方法。如表I所示,尽管基于扩散模型的方法仅使用了相对较少的数据进行训练,但其性能已经超过了许多依赖大规模数据集的方法。这凸显了扩散模型中编码的强图像先验的重要作用,这些先验极大地增强了深度估计模型的泛化能力。我们的方法属于基于扩散模型的类别。通过结合单步确定性范式和专门设计的特征对齐模块,我们在KITTI数据集上的AbsRel指标上相对于Marigold [16]实现了17.2%的提升,有效缩小了基于扩散模型的方法与依赖大规模数据集的方法之间的性能差距。推荐课程:单目深度估计方法:算法梳理与代码实现

图片

图片

5. 总结

在本研究中,我们提出了DepthMaster,一种为深度估计构建扩散模型的方法。通过融入特征对齐模块,我们有效地缓解了模型对纹理细节的过拟合问题。此外,傅里叶增强模块通过在频域内操作,增强了细粒度细节保留能力。得益于精心的设计,DepthMaster在零样本性能和推理效率方面实现了显著提升。大量实验验证了我们方法的有效性,该方法在泛化和细节保留方面达到了最先进的性能,在各种数据集上均优于其他基于扩散的方法。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值