一天不学习我会疯的-CSDN博客

原创 30篇论文计划-5-Transformers Solve the Limited Receptive Field for Monocular Depth Prediction

在过去的十年里，卷积神经网络已经成为一种特殊的方法来处理基本的和具有挑战性的计算机视觉任务，需要密集的像素级预测，如语义分割[6,20]、单眼深度预测[38,17]和正常表面计算[41]。自从[26]的开创性工作以来，现有的深度预测模型一直由使用ResNet和VGG-Net等架构实现的编码器所主导。编码器逐步降低空间分辨率，并学习更多的概念与更大的接受域。因为上下文建模对于像素级预测至关重要，所以深度特征表示学习可以说是最关键的模型组件[5]。然而，深度预测网络要提高其建模全局上下文的能力仍然具有挑战性。

2024-06-29 11:19:14 607

原创 30篇论文计划-4-GMFlow: Learning Optical Flow via Global Matching

自基于学习的先驱工作FlowNet[10]以来，光流已长期采用卷积回归。为了将匹配的信息编码到网络中成本量（即相关性）[13]被证明是一个有效的组成部分，因此已被广泛应用于流行的框架中。然而，这种基于回归的方法有一个主要的内在局限性。也就是说，成本量需要一个预定义的大小，因为搜索空间被视为后续卷积回归的通道维度。这一要求将搜索空间限制在一个局部范围内，使得很难处理大的位移。为了缓解大位移问题，RAFT [39]提出了一种具有大量迭代细化的迭代框架，在不同的迭代阶段将卷积应用于不同的局部代价量，从而。

2024-06-11 16:27:37 531

原创 30篇论文计划-3-UniDepth: Universal Monocular Metric Depth Estimation

UniDepth: Universal Monocular Metric Depth Estimation

2024-06-09 12:17:06 1136

原创 30篇论文计划-2-AdaBins: Depth Estimation using Adaptive Bins

作者的想法来源于当前的结构没有对输出值进行足够的全局分析。卷积层的一个缺点是，只有当张量处于很低的分辨率时，它们才能处理全局信息。作者认为，在高分辨率下的全局处理是更有效的。作者整体的思路是对传统编解码器的输出进行全局统计分析，并且在最高分辨率下用一个可学习的后处理块细化输出。据此，作者提出分析并修改深度值的分布。对于不同的RGB输入对应的深度分布会有很大的差异，见图1.有些图像中大多数物体都位于深度值较小的范围内。

2024-05-31 13:56:35 797

原创 30篇论文计划-1-SQLdepth: Generalizable Self-Supervised Fine-Structured Monocular Depth Estimation

SQLdepth: Generalizable Self-Supervised Fine-Structured Monocular DepthEstimation

2024-05-29 13:00:32 1145

原创 depth-anything 代码

使用 Huggingface镜像网站：https://hf-mirror.com。

2024-05-27 09:21:37 183

原创 2021-Vision Transformers for Dense Prediction

几乎所有现有的密集预测架构都是基于卷积网络的[6,31,34,42,49,50,53]。密集预测架构的设计通常遵循一种模式，即逻辑上将网络分为编码器和解码器。编码器通常基于图像分类网络(也称为骨干网络)，该网络在大型语料库(如ImageNet)上进行预训练[9]。解码器聚合来自编码器的特征，并将它们转换为最终的密集预测。密集预测的架构研究往往集中在解码器及其聚合策略上[6,7,50,53]。然而，人们普遍认为，骨干网架构的选择对整个模型的能力有很大的影响，因为在编码器中丢失的任何信息都不可能在解码器中恢复。

2024-03-23 15:12:24 809

原创（2023）HQDec: Self-Supervised Monocular Depth Estimation Based on a High-Quality Decoder

中。为了计算x的全局相关权重，我们首先利用一个可学习的线性变换函数linear(·)(例如，一个线性层)将x三重化，然后我们通过f。

2023-10-24 23:16:00 177

原创 (2022 CVPR)P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior

特别是，我们的网络的。

2023-09-11 13:55:12 234

原创 (2023 CVPR)CompletionFormer: Depth Completion with Convolutions and Vision Transformers

给定稀疏深度和相应的RGB图像，旨在将稀疏测量值在整个图像中进行空间传播，以获得密集的深度预测。尽管基于深度学习的深度补全方法取得了巨大的进步，但卷积层或图模型的局部性使得网络难以对像素之间的长期关系进行建模。虽然最近完全基于transformer的体系结构在全局接受场方面取得了令人鼓舞的结果，但由于其局部特征细节的恶化，与发达的CNN模型相比，性能和效率差距仍然存在。本文。这种混合体系结构自然有利于卷积的本地连接性和单个模型中Transformer的全局上下文。

2023-09-07 13:54:48 568 5

原创 (2022 ECCV)Gradient-based Uncertainty for Monocular Depth Estimation

在单目深度估计中，图像环境中的干扰，如移动的物体或反射的材料，很容易导致错误的预测。因此，每个像素的是必要的，特别是对于自动驾驶等安全关键应用。我们提出了一种，用于已经训练的固定深度估计模型，该模型由深度神经网络表示。用。为了避免依赖于地面真值信息的损失定义，我们提出了一个。我们的方法在KITTI和NYU Depth V2基准测试中实现了最先进的不确定性估计结果，而无需重新训练神经网络。模型和代码可在https://github.com/jhornauer/GrUMoDepth上公开获得。

2023-09-06 14:21:06 169 1

原创 (2019)Digging Into Self-Supervised Monocular Depth Estimation

逐像素地真深度数据的大规模获取具有挑战性。为了克服这一限制，自监督学习已经成为训练模型执行单目深度估计的有希望的替代方法。在本文中，我们提出了一系列改进措施，与竞争的自监督方法相比，这些改进措施在数量和质量上都提高了深度图。对自监督单目训练的研究通常会探索越来越复杂的架构、损失函数和图像形成模型，所有这些都有助于缩小与全监督方法的差距。我们展示了一个令人惊讶的简单模型，以及相关的设计选择，导致了更好的预测。特别是，我们提出(i)，旨在鲁棒地处理遮挡，(ii)减少视觉伪影的，以及(iii)

2023-08-30 08:51:43 242 1

原创 (2017)Unsupervised Learning of Depth and Ego-Motion from Video

我们提出了一种，用于从中估计单目深度和摄像机运动。与最近的工作[10,14,16]一样，我们使用，将作为。与之前的工作相比，我们的方法是完全无监督的，只需要进行训练。我们的方法使用和，使用将上，从而。因此，网络在训练期间通过，但可以在测试时独立应用。对KITTI数据集的经验评估证明了我们的方法的有效性:1)，2)在可比较的输入设置下，姿态估计与已建立的SLAM系统相比表现良好。

2023-08-29 18:26:29 193 1

原创 (2021 AAAI)HR-Depth : High Resolution Self-Supervised Monocular Depth Estimation

使用图像序列作为唯一的监督源，自监督学习在单目深度估计中显示出巨大的潜力。尽管人们尝试使用高分辨率图像进行深度估计，但预测的精度并没有明显提高。在这项工作中，我们发现其核心原因在于。为了在大梯度区域获得更准确的深度估计，需要获得具有空间和语义信息的高分辨率特征。。使用Resnet-18作为编码器，HR-Depth在高分辨率和低分辨率下都以最小的参数超过了所有以前最先进的(SoTA)方法。此外，以前最先进的方法是基于相当复杂和深度的网络，具有大量的参数，这限制了它们的实际应用。因此，我们还构建了一个。

2023-08-28 16:14:32 260 1

原创 (2022 ECCV)RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation

(a)首先，给定一个原始实例{It, Is} (s∈{t−1,t + 1}， t为目标图像，s为源图像)，我们使用任意尺度数据增强生成三个不同尺度的训练实例:{ILt, ILs}， {IMt, IMs}和{IHt, IHs}。为简单起见，图中仅显示目标图像ILt、IMt和IHt。(b)然后，我们使用我们提出的高效双HRNet分别预测这些目标图像的深度图(DLt, DMt, DHt)。注意，Dual HRNet每次只输入一张目标图像，然后输出相应的深度图，所有目标图像共享同一个Dual HRNet。

2023-08-28 13:21:26 314 1

weixin_43985824的博客