论文阅读 2021 —— DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes

论文阅读,在拥挤的动态室内场景下的稠密深度预测。

作者提出了一个方法来估计深度,相机在复杂且拥挤的室内环境中移动,比如一个百货商店 或一个地铁站。通过在一个动态场景中训练,算法能够预测整个场景中绝对尺度的深度信息,包括一个静态的背景和多个移动人群。因为从拥挤的室内环境中采集稠密深度图是困难的,因此作者设计了一个训练框架,这个框架不需要从深度传感器采集到的深度信息。作者提出的网络使用了RGB图像和由传统3D重建方法得到的稀疏深度。不显著跟踪非刚性移动的人群,作者使用了两个约束来处理深度。在包含复杂且拥挤场景数据集NAVERLABS数据集中,作者提升了精度。

1 介绍

在拥挤场景中使用机器人是非常重要的,比如超市,机场或公共场所。导航中使用一个大规模室内环境的3D几何表达(模型属于表达的一种)是非常重要的,但是目前的深度传感器存在限制,比如LiDar只能得到远距离的稀疏点云,由于多个移动人群的高等级的遮挡,可能会产生许多噪声点云。而且这类传感器又贵体积又大,所以考虑用一个相机的情况是非常关键的。

传统的重建算法假设目标静止,但是在拥挤的室内场景中,存在大量的移动行人,就不满足这个假设,所以传统的重建算法精度都不够高。而且传统的重建算法无法解决无纹理(白墙)有反射(镜子)的问题。

为了解决这些限制,作者探索了一些新的方法,这些方法可以使用一个由传统方法生成的3D模型到一个用于动态场景的基于学习的深度预测算法中。给定一个3D模型,算法能够用于通用的场景,因为它能够计算动态场景中的稠密depth。与有监督学习方法不同,这个算法不依赖深度传感器生成的稠密深度图。算法如下图所示,输入一个RGB图像和一组稀疏点云,这个点云由一个3D模型投影得到,输出是一个稠密点云。给定一个从SFM得到的pose,算法使用光度一致性loss来估算稠密深度和对应的loss,这使得网络能够学习到一个绝对尺度的loss。尽管这些loss在静态场景中有用,但是在动态场景中就存在限制。因此作者提出了两个约束:

  • 一个光流导引的形状约束来提升深度精度。通过填补人区域的缺失部分,并移除视觉伪影。
  • 一个法向尺度约束迫使网络在一个由深度值引导的人类区域中学习到一个绝对尺度深度。

在这里插入图片描述
创新点如下:

  1. 给出了一个动态场景估计深度的网络。
  2. 提出了两个新的约束提升网络预测深度的精度。
  3. 比目前的SOTA还要高。

2 方法:DnD

传统重建算法,只能重建静态区域,动态区域重建不了,所以模型投影到当前图像下的时候,就是稀疏点云,因为动态区域是空的。网络结构如下图所示, I t , I t ′ I_t, I_{t'} It,It是两个相邻的图像, D t , D t ′ D_t,D_{t'} Dt,Dt是对应的点云,然后通过一个网络得到一个点云,这个网络是一个UNet结构。然后可以直接输出一个深度图,然后下面利用论文提出的loss和约束进行训练优化。

在这里插入图片描述

2.1 绝对尺度深度Loss

约束预测出的深度图,必须与输入的稀疏深度对应位置深度值一致。这个loss在深度预测中太常见了,实际上作者认为稀疏点云精度挺高。
在这里插入图片描述

2.2 光度一致性Loss

输入:两张图像,一个图像的预测depth,两张图象之间的相关pose。

这个loss也太常见了,两张图像之间存在一个相关位姿,这个位姿的获得也比较简单。因为每个图像相对于SFM模型的pose是知道的,因此相对位姿也很容易算出来。这个loss思想很简单,就是认为第二张图像利用depth和pose投影到第一张图像上,两个图像应该是对齐的,SSIM是结构相似性指标,也是常见的指标。
在这里插入图片描述

2.3 导引流形状约束

上面这两个loss都是基于静态场景的假设,不适用于动态场景。所以如果能正确估计相邻帧之间移动人群的运动,就能得到用于3D重建的视角一致性。但是基于三角测量的方法是不行的,因为移动的人群是非刚性变换的,因此估计他们的3D运动是困难的。

因此利用光流 F F F和(由FlowNet2.0得到)两个图像的行人mask M t , M t ′ M_t, M_{t'} Mt,Mt(由Mask RCNN得到),来计算一个新loss。利用光流可以把 M t ′ M_{t'} Mtwarp到 M t M_t Mt上,最后取两个mask的交集作为最终行人的mask。
在这里插入图片描述

最后在深度上,利用光流将一个深度warp到另一个深度上,考虑到光流可能不准,但是行人目标上深度梯度应该是相似的,因此,使用了一个尺度不变性的一种计算方法,得到光流导引的loss。

在这里插入图片描述

光流这部分实际上非常重要,因为前面的loss都是基于静态目标的,目标一动,就很难匹配上,这时候利用光流就可以匹配目标深度,进而在训练中可以对网络有很好的修正。

对于非行人的区域,就是所谓的静态区域,利用smoothness loss即可(这个也很常见了)。

在这里插入图片描述

2.4 法向导引的尺度约束

作者使用曲面法向来估计地面区域,如下图a所示,选择一点 P P P及其8个邻域,可以获得4对计算法向的组合(2,6)(3,9)…,因为地面法向垂直与地面,所以选择两个点构成向量的外积就是法向向量。取4个点对的均值作为点 P P P当前位置的法向。
在这里插入图片描述
在一大堆像素点中,只需要地面区域的像素点,如下图b所示,相机由于有一些俯仰导致相机实现没有与地面垂直。设置地面法向量为 ( 0 , 1 , 0 ) (0,1,0) (0,1,0),给定一个阈值 θ \theta θ,查找在这个范围内的所有的点。
在这里插入图片描述

在这里插入图片描述
关于最后的这个约束,感觉作者写的有点复杂,我的理解就是,B表示人脚底的地面的一个patch,G表示上面计算出的地面点集,两个几何的交集就是这个人脚底下真正的地面点。作者实际上认为人身上的深度应该和脚底对应的深度相似,所以选择脚底的patch的深度的均值作为参考,在人的mask可上均匀采个点集 M ′ M' M M ′ M' M上每个点的深度应该与脚底一致,然后除以身体距离归一化一下。
在这里插入图片描述

2.5

整体loss就是前面这4个小节给出的5个小loss的加权和。

3 实验

下图F表示前景,F+B表示整个场景,显然这个论文对前景的估计效果还是不错的。
在这里插入图片描述
在其他的数据集中时,作者利用单目的精度比基于双目的精度要差一些。
在这里插入图片描述
一些实验结果
在这里插入图片描述

4 总结

这个算法有一些问题,作者也说了,通过3D模型投影得到的稀疏点云,精度不是特别高,会影响精度。而且循环过程依赖FlowNet和mask RCNN来获得光流和行人mask。作者在未来的工作中会想办法将这个方法扩展到室外场景中。

我的一些想法:预测深度的整体框架上与一般的depth估计类似,但是论文中提出的两个准则主要是面向人了,普适性可能差一些,但是换了个目标我们同样可以参考作者的思想,作者提出了一种很好的思路。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值