flow

最新推荐文章于 2023-03-17 15:47:07 发布

沙雅云

最新推荐文章于 2023-03-17 15:47:07 发布

阅读量212

点赞数

分类专栏：视频中的目标检测

本文链接：https://blog.csdn.net/yychentracy/article/details/84037607

版权

视频中的目标检测专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1,光流的概念
就是利用图像的的像素在时间域上的一些变化以及相邻帧之间的相关性来找到帧之间的对应关系，计算出相邻帧之间的运动信息。
光流是二通道的，不同颜色表示不是不同的运动方向，颜色的深浅表示位移的速度。
2论文的结构
1，收缩的网络结构
2，方法的网络结构
3，训练数据集
4，实验与结果分析
5，训练的小tips
1 没有全连接层
2 网络包含9个 stride为2的convolution layer 和 ReLU nonlinearity,

3, 在 correlation layer中，将d 设置为20 pixels， s1=1, s2=2

4, training loss 采用 endpoint error (EPE)，是optical flow 评价的标准误差公式。

其中(u, v) 是estimated flow ， (uGT, vGT) 是 ground truth optical flow。

5，因为本CNN使用Adam表现的比SGD更快速度收敛，使用Adam 作为optimization method，

6，fine tuning 阶段， tips是先用小learning rate （1e-6）训练几千轮，然后在改用普通的learning rate (1e-4) 接着训练。

摘要
提出并且比较了两种结构：一般的网络和在不同的图像位置包含包含关联特征向量的层。生成了一个synthetic Flying Chairs dataset。用生成的数据集进行训练得到的效果还不错。
introduction
提出了而一对图像中预测光流、光流估计需要精确的像素定位。所以就需要寻找两张图之间的像素关系。在两张图片的不同位置进行匹配。提出了一种具有相关层的精确匹配能力的网络结构。利用卷积可以在不同规模和抽象处的特征中学习到相关关系，关联层之上的层学习如何预测这些匹配的光流，但是这些是没有必要的，因为，即使最原始的网络也可以预测光流。
去预测光流需要一个巨大的数据集，虽然数据扩大的数据集有些帮助，但是现有的数据集太小了，无法得到与当前水平相当的数据集。CNN在这个数据集上训练的模型可以很好的推广到现实的数据集上，甚至都不要微调。
related work
optical flow：以前只用的是variational approach
The recent focus was on large displacements,
and combinatorial matching has been integrated into the
variational approach。deepmatching和deepflow使用稀疏卷积核最大池化将特征信息从精细提取到粗糙提取。但是不具有学习能力，并且所有的参数都是手动设计的。EpicFlow的重点是稀疏匹配，因为这些匹配只是respect图像的边界，然后插值到稠密的光流场中。本文只是用变分的方法对被卷积预测的光流场进行refine，这就不需要手工设计的方法进行聚合，匹配和插值。有些人用机器学习的方法应用到光流场。有些人还使用了网络模型在视频的帧间差和运动上进行无监督的学习。使用乘法交互建模两张图片之间的关系从潜在变量中可以推断出差异和光流。
network architecture
convolutional network：使用CNN去估计光流。从cnn中提取特征表示，基于欧氏距离匹配特征。Siamese结构可以预测两张图片的相似性。这些方法与本文方法的巨大差异就是他们是基于patch的，并且空间的aggregation需要进行后处理。本文的网络就是直接处理光流场的。
per-pixed，这里面使用了两种方法就是需每一张image patch单独的使用CNN，缺点就是就算复杂度太高，不允许考虑全局的输入特性。另外一种方法就是将所有的特征图上采样映射到全像素，并且堆叠在一起。但是逐像素的特征向量就会堆叠在一起用来预测感兴趣的值。使用上卷积层精修一个输入的粗糙层，我们不仅对粗预测进行“卷积运算”，而且对整个粗特征图进行“卷积运算”，从而将更多的高级信息传递到细预测中。给定一个图片和标签的数据集。直接从图形中训练一个x-y的光流，
1 ‘FlowNetSimple：stack both input image让网络自身提取运动信息对图片进行预测。原则上网路可以学习到一个很好的特征模型，但是SGD不一定可以收敛到一个很好的效果。可能手工设计的结构没有那么通用性。可能比给定的数据和优化技巧的表现能力会好很多。
2‘FlowNetCorr’ 对两张图片的两个流进行相同的处理，然后在后续阶段进行combine。
‘correlation layer’ that performs multiplicative patch
comparisons between two feature maps
为了协助网路进行匹配，引入了‘correlation layer，这个层可以在两张特征图上进行块的 ‘correlation layer’ that performs multiplicative patch
comparisons between two feature maps。这个层可以将所有的patch来自f1 和F2都比较。但是我们考虑了就是single comparison两个patch。不在使用卷积核，而是使用另外的一张图去卷积、这样就没有可训练的权重。这样就会产生一个巨大的结果，这样使得后向和前项传播变得棘手。为了便于比较，限制了大位移场，并且在两张特征图上引入了stride。全局量化x1 ，x2 在以x1为中心的附近进行量化。对于两个二维位置的每一个组合，我们得到一个相关值，即两个向量的标量积，这两个向量分别包含裁剪后的patch的值。
refinement：
CNN使用交叉卷积层来提取高纬度的空间特征，但是，池化使图像的分辨率减小，对于预测就产生了影响。才有一种方法可以refine这个corse 池化层。就是加入了反卷积层。反池化。在每张图上进行翻卷积，然后将它和压缩网络中关联的特征图进行concatenate。并且上采样coarser feature map，每一步都会两次增加分辨率。但是作者发现这种精华没有很好的提高结果。比一个计算量小一点的双线性采样还原全图的分辨率。，本文使用了没有匹配项目的变分方法在这个分辨率时再接着进行双线性上采样的refinement已经没有显著的提高。
为了做refinement，我们在特征图上用上卷积，然后把它和网络的收缩部分’contractive’ 得到的对应特征图、以及一个上采样的coarses流预测连接起来。这样就能既保留coarser特征图的高层信息，又能保留低层特征图的好的局部信息。每个步骤两次增加分辨率，我们重复这个过程4次，得到预测的流，此时的特征图还是原图的四分之一。
所以采用优化方式：the variational approach ，
training data
experiments

【论文学习】神经光流网络——用卷积网络实现光流预测（FlowNet: Learning Optical Flow with Convolutional Networks） - Joe_quan的博客 - CSDN博客 https://blog.csdn.net/hysteric314/article/details/50529804
FlowNet: Learning Optical Flow with Convolutional Networks - 嫩芽33 - 博客园 https://www.cnblogs.com/nenya33/p/7122701.html