2015-CVPR-Direction Matters: Depth Estimation with a Surface Normal Classifier
abstract
- 用分类器对整个集合法向量进行分类,通过一系列优化最终决定surface orientation(表面方向)
introduciton
- 用双目矫正图片对学习视差的局限性:
- 条纹少的地方,如墙
- 过度曝光的地方
- 输入数据本身就很模糊,如反射地面
- 目前处理以上问题的方案:
- 将基于不相似计算的匹配成本加入到最后的能量函数中
- 利用图片中的边缘信息和先验知识,如平面表面
- 机器学习的引入使得分类器能够基于单张图片估计表面方向
- 本文的亮点:
- 表面法向量估计对均匀的区域(墙,反射地面)的深度估计比较可靠
- 不限制每个像素点只有一个法向量,多个法向量的存在能够解决分类器在某个方向不能可靠的推断视差的问题
related work
- Markov random field(MRF):全局最优解决方案
- anisotropic Total Variation(TV) :将图像中的边缘信息和深度不连续性联合起来
formulation
- 基于2D图片获取深度信息的能量函数最小化的问题,由于问题(给一个像素打上什么标记最优)非凸,全局energy函数一般是非凸问题,不过可以把问题转化为3D体素,一般都可以得到全局最优
- 三个知识点:
- 前向差分离散化( forward difference discretization)
- positively 1-homogeneous function
- wiki
- homogeneous function of degree 1: f(ax)=af(x) f ( a x ) = a f ( x )
- 结论: f(ax)=af(x),a>0 f ( a x ) = a f ( x ) , a > 0 具有的性质: f(x)=x▿f(x) f ( x ) = x ▽ f ( x )
- Wulff construction
- wiki
- 定义:体积一定的滴状或晶体达到平衡时的形状,能量(吉布斯自由能)最小化准则会选择晶体每个面的最佳形状
- △Gi=∑jγjOj △ G i = ∑ j γ j O j , γj γ j 表示平面每单位面积的吉布斯自由能, Oj O j 表示每个平面的面积, △Gi △ G i 表示实际的晶体形状和用Wulff construction出来的晶体之间能量的差值
- 晶体表面法向量的长度和平面能量的大小成正比,法向量是指从晶体的中心到平面的距离,对于一个球体而言就是它的半径.
- 前向差分离散化( forward difference discretization)
能量函数公式:
对于图片 I=w∗h I = w ∗ h 中的任意像素点 (r,s) ( r , s ) ,其标记 ℓ(r,s)∈ ℓ ( r , s ) ∈ L ={
0,…,L} = { 0 , … , L } .那么引入变量 u(r,s,t)∈[0,1] u ( r , s , t ) ∈ [ 0 , 1 ] ,对任意 (r,s,t)∈Ω=I∗L ( r , s , t ) ∈ Ω = I ∗ L 成立.
u(r,s,t)={
01if ℓ(r,s)<telse u ( r , s , t ) = { 0 if ℓ ( r , s ) < t 1 else
这相当于在 Ω Ω 立体空间找到一个分割面,在边界上添加规则化项和限制,使得标记分配问题变成一个凸优化问题
那么能量函数表达式如下:
E(u)=∑r,s,t{
ρ(r,s,t)|(▿tu)(r,s,t)|+ϕ(r,s,t)(▿u)(r,s,t)}s.t.u(r,s,0)=0u(r,s,L)=1∀(r,s) E ( u ) = ∑ r , s , t { ρ ( r , s , t ) | ( ▽ t u ) ( r , s , t ) | + ϕ ( r , s , t ) ( ▽ u ) ( r , s , t ) } s . t . u ( r , s , 0 ) = 0 u ( r , s , L ) = 1 ∀ ( r , s )
其中:
1. ρ(r,s,t)为给像素(r,s)分配