论文笔记:Unsupervised Learning of Depth and Ego-Motion from Video

无监督学习的视频图像深度和运动估计

参考文章:https://blog.csdn.net/weixin_42113967/article/details/115732187

摘要:作者提出了一种无监督学习框架,提出了一个单目相机的序列图像进行深度估计与运动估计。使用端到端学习方法,将视图合成作为监督信号。方法使用单视图深度网络和多视图位姿网络,利用计算的深度和位姿,将附近的视图warp到目标,从而产生损失。

方法:depth network和pose network共同训练的架构模式e

核心

Depth CNN :  I_{t} (target view)作为输入,输出逐像素深度图^D_{p}.

Pose CNN:  I_{t} (target view)和 I_{t-1}I_{t+1} (source views)作为输入,输出相对相机位姿(T_{t\rightarrow t-1}T_{t \rightarrow t+1 })。

然后,两个网络的输出被用来反向warp source views来重建target view,并使用光度重建损失来训练CNN。

 Loss: 

其中,It就是target view,^Is就是Is(source view) 通过深度图warp到target view的结果

Warp:

 

 p_{s} : pixel in source image,p_{t} :pixel in target image,K :the camera intrinsics matrix

除此以外,为了让该公式能够被神经网络训练,求出D和T,我们必须让它可求导 (differentiable)。本文的做法是采用Spatial Transformer Networks [2]文章中的双线性插值法 (biliner interpoltion)

限制:1 场景是静态的,没有移动的物体;2 target view和source view之间没有遮挡;3 the surface is Lam-bertian so that the photo-consistency error is meaningful.(Surface不符合Lambertian规律,不是理想散射)。

为了解决这个问题,作者提出了使用explainability prediction network(depth and pose networks连接起来同时训练)。这里没懂,参考论文笔记-深度估计(6)-Unsupervised Learning of Depth and Ego-Motion from Video_一只飞鱼的博客-CSDN博客

CVPR 2017【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video_Agent 1的博客-CSDN博客

文章额外用了一个“解释性网络”来估计每个target和source图片对的mask,用这个mask(相当于target图像与每一个source图像组成的图像对都有一个mask)来降低弱纹理的图像部分的权重。其网络结构形似pose网络,与pose共享前5层网络,随后分开分别求解释性pose和mask(可认为得到的mask大小为层数2x(N-1),即与其他所有帧,每两帧共享一层,Es就是每层中的数值。)

于是上述的Loss为:

因为对Es是没有直接监督的,会导致实现最小化损失,为了避免Es最终被优化为0,给Es添加了形如softmax的交叉熵的正则项Lreg(Es),从而可以避免移动物体带来的误差???

梯度主要来源于像素的强度差(I(p_{t})和相邻的I(p_{s })),如果正确的p_{s }位于低纹理区域或远离估计区域,就会抑制训练。为了输出(不论是深度还是视差)在图像分布中平滑,特别为了解决低纹理或估计值离真值太远时会造成梯度为0或梯度错误的情况,大家一般会有两种思路:1 在深度网络中使用具有小瓶颈的卷积编码器-解码器架构(convolutional encoder-decoder architec-ture with a small bottleneck),将周围的梯度传递给当前像素;2 明确的多尺度和平滑度损失使梯度可以从更大的空间区域直接获得。本文受SfmNet启发,采用后一种方案。本文采用第二种方法,对平滑项采用L1范式,最终的loss变为:

网络结构

 

参考:CVPR 2017【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video_Agent 1的博客-CSDN博客

都是encoder-decoder的结构,Single-view depth network采用dispnet的结构;pose network的input是target和source连接在一起的,经过七个卷积层再应用全局平均池化预测空间位置。
对于explainability prediction network,前五层和pose network是共享的,output通过softmax每两个通道归一化,第二个通道经过归一化后就是^Es。除了预测层其他层都使用relu激活,并且使用了激活函数为1/(α∗sigmoid(x)+β) 其中α = 10 and β = 0.1。

实验:KITTI Cityscapes

Make 3D

 Visualizing the explainability prediction

存在的问题:1 目前的框架对运动物体和遮挡的物体估计效果不好,这两者解决3D场景的关键问题。通过运动分割(motion segmentation)可能是一个潜在的解决方案; 2 需要已知的相机内参;3 深度预测还是不够完整。

首先,论文的题目是“中小型园区网的设计实现”。在这个题目中,包含 了几个方面的要求。第一,网络规模是“中小型”,因此,论文中网络的规模不 能太小,我不希望最后的结果是用一个集线器或交换机连接了十几台或几十台计 算机,因为这样真是没有什么技术含量了。当然,我也不希望网络过大,因为一 个大的网络会有很多实际问题需要解决,而这些问题的解决对于大家来说是有一 定困难的。比较理想的网络规模是由500 台至1000 台计算机组成的一个网络, 这样的话,有许多我们学过的网络知识可以被利用,比如IP 地址的规划,VLAN 的划分,等等。第二,网络的类型是“园区网”。园区网是局域网应用的一个特 例,包括企业网、校园网等多种形式。园区网有一定的地理分布范围,不应该简 单地位于一个办公室或一个较小的区域。第三,论文要求有网络设计过程,包 括对网络需求的分析、网络拓扑的规划网络设备的部署计划、VLAN 的划分、 IP 地址的分配等等,如果需要,可以包括网络的安全策略、访问控制等。第四, 论文要有网络的实现过程。这一实现过程需要在论文中以明确的方式说明,包括 对网络设备及终端设备的配置要求等,但并不要求用真实的网络设备来实现。实 现过程应该是设计过程的继续,要设计过程密切相关。需要注意的是,网络设计实现都是以需求分析为依据的,整个论文应该是一个整体,切不可前后脱 节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值