原文链接:2006.04902.pdf (arxiv.org)
本文仅为笔记。
1.PWC-net模型
将图片1和图片2分别放入共享的cnn网络,通过金字塔结构生成特征图,这些特征图分别用于图像的warp操作(W),成本计算(cost volume computation)(C),和光流估计(F)。
最顶层的第5级,它只用进行成本计算和光流估计。之后通过右图的操作传入第4级,第五级中的光流图与第四级中的特征2进行warp操作,这样操作的目的是使当前层从一个比较好的“起点”开始。然后与第四级的特征1进行成本计算。
之后将成本计算的输出、第四级的特征1、第五级产生的光流图、以及context-第五级光流网络的输出,一并输入到估计光流的cnn中去。以此类推,直到第二级,将最终的flow输入到一个context network中,这个context network是一个空洞卷积。
为了应对无监督学习中的bi-directional losses,occlusion estimation和self-supervision使得内存增加,我们去掉了第6级,所有级别使用32个通道,并在所有流量估计模块中添加剩余连接。此外,我们在所有级别上都去掉了剩余流量估计,以进一步正则化学习,即我们随机将调整大小和缩放后的流量估计从上一级直接传递到下一级。