[Paper note](Efficient Deep Learning for Stereo Matching)
这篇文章介绍一种更加快速但是只损失少量精确度的双目视差计算方法。其使用的主要框架与MC-CNN类似,尤其是Fast 框架,直接对两个由Siamese network得到feature vectors进行inner product计算。然后对结果的预测采用多类分类的模型,类别即不同大小的disparity(MC-CNN中采用二元分类),这样可以输出结果的置信度,用来帮助判断结果是否可信。
https://imgbb.com/‘>best free photo hosting site
siamese 网络是由两个相同分支网络组成的结构,能够对两组输入数据进行相同的处理。我们采用传统的 卷积 → → BN → → RELU → → pooling → → 卷积 → → … 卷积 → → BN → → Softmax 形式构建网络。卷积核为(5x5或3x3 的大小) , 一般我们每一层用32或者64个卷积核。上图是一个用了3x3卷积核的4层的网络,因此整个网络对输入数据具有一个9x9的感受野(如果用3x3的kernel,stride=1,每一次卷积都会增大感受野(如何用kernel_size和s表示),感受野长度此时+1,所以在经过四次卷积之后,网络感受野增加至9x9)
训练
我们将视差计算问题当做一个多分类问题来处理,其中类别为所有可能的视差值。
训练数据: 训练时,我们从左图选取一个patch,令 (xi,yi) ( x i , y i ) 为patch的中心像素, dxi,yi d x i , y i 为对应的disparity的GT。从而我们从以左图patch为输入的siames网络得到64维的特征向量,从另一分支得到 |i|∗64 | Y i | ∗ 64