video prediction深度学习算法汇总

最新推荐文章于 2024-04-07 15:30:15 发布

ygfrancois

最新推荐文章于 2024-04-07 15:30:15 发布

阅读量3.3k

点赞数 2

分类专栏：深度学习视频预测

本文链接：https://blog.csdn.net/ygfrancois/article/details/106695500

版权

深度学习同时被 2 个专栏收录

22 篇文章 3 订阅

订阅专栏

视频预测

1 篇文章 0 订阅

订阅专栏

SDC-Net：Video prediction using spatially-displaced convolution

ECCV2018，未开源，来自英伟达团队，看结构是vid2vid前身，与另一篇CVPR2019 oral 《Improving Semantic Segmentation via Video Propagation and Label Relaxation》，三者应该来自同一团队。

主要思想是希望结合vector based方法(光流融合类)和kernel based方法各自的优点，即vector based擅长捕捉大motion，kernel based方法擅长捕捉小细节(受kernel size限制无法建模large motion)。

vector-based可以理解为传统光流法的融合，文章使用双线性采样。

kernel-based很像卷积的操作，每个像素点给出一个与该像素点为中心的patch等大的核，与该patch卷积乘法后得到该像素点变换后的值。

本文则是提出两种方法结合起来的SDC-based，先vector-based，再kernel-based。

网络架构如图，本文借助训练好的FlowNet2作为光流生成工具，对输入序列计算光流后，与对应帧叠加，变成每帧为5个通道（RGB3+光流2）的视频序列。输入G之后生成下一帧的光流u和v（所谓的vector-based），和两个方向的K（kernel based），每个方向都有原图像素点等多个k。

网络使用了3D卷积，K的head使用了三线性插值代替反卷积，削弱棋盘问题。

文中提到了光流本身存在的不准确的问题，所有没有使用光流作监督（否则效果会变差），然而还是使用了光流作为输入，这是会存在问题的做法（后作vid2vid里没有再这么做，而是只采用光流预测正确的部分作监督）。

训练步骤比较繁琐，先训(u,v),再fix Network只训K的head（K初始化为近似middle-one-hot），再用L1训全部，最后用finetune loss提升生成图像的真实性。

PhyDNet：Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction

CVPR2020，未开源，来自法国。

主要思想是试图用深度网络构建物理约束模型，方法是用卷积模拟偏导，用moment loss作监督，学到物理信息，从而对已有的网络（文中使用ConvLSTM）进行信息补充。

如图，右边为已有深度网络可以捕捉到的信息，本文试图使用深度网络通过偏微分方程来建模先验物理知识，即左边的信息。最后将物理信息和已有信息结合获得更好的结果。

本文主要创新点在PhyCell，该单元的计算公式：

E（u）表示的是对输入真实帧的encode，ht为t时刻隐变量，Φ(h(t, x))是隐变量对空间每个像素点的偏导和，该公式与很多物理模型公式类似，如热力学方程、波动方程、对流扩散方程等。

Kt也是由网络学出来。该式可以改写成以下公式：

式（6）被认为是通过数学模型推算出的数值，式（7）则被认为是基于数据训练对数学模型进行的修正，其中K公式如下：

Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity and Temporal-Consistency Video Prediction

CVPR2020，开源，来自中科院计算所。

主要思想是用小波变换分别获得时间、空间域的低频和高频信息，并融入网络，试图解决视频预测任务中空间维度细节和时间维度motion不准的问题。

作者认为之前视频预测问题在两方面：

1. 细节特征的丢失，往往是下采样造成的空间高频细节丢失。虽然空洞卷积可以替代下采样，但是空洞卷积对small objects不友好。

2.动态场景里的动作往往有多个频率，如小汽车比大卡车快。作者认为之前的RNN类网络无法捕捉不同频率的动作。

作者给出该方法对速度拟合的优势示例。

文章分别用DWT-S模块和DWT-T模块对空间高低频和时间高低频进行捕捉，空间1高3低，时间2高2低。采用LSTM迭代往前预测的方法，每帧使用卷积+RRDB(来自ESRGAN，当初尝试过使用ESRGAN做超分辨，但是效果不咋滴)来进行特征提取，每个RRDB后融合DWT-S获取的当前scale下的高低频信息。时间维度高低频信息融合在LSTM后，进行一个时间维度的矫正。

该文号称多频分析第一人，引入S-WAM和T-WAM结构，从实验结果来看，WAM的引入对网络确实带来不小提升，但在网络结构上，个人认为并不能算是非常好的设计。在没有WAM的情况下，网络是比PredRNN还差的，即使是完全体比E3D-LSTM好了不少（不过E3D论文中的Mnist指标就很难复现，不如MIM），但是文章是用了GAN loss的，E3D和PredRNN++基本都是主要基于L1 L2，GAN loss带来的指标上的改进占多少，文章没有做消融实验。

ygfrancois

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
video prediction深度学习算法汇总

SDC-Net：Video prediction using spatially-displaced convolutionECCV2018，未开源，来自英伟达团队，看结构是vid2vid前身，与另一篇CVPR2019 oral 《Improving Semantic Segmentation via Video Propagation and Label Relaxation》，三者应该来自同一团队。Disentangling Physical Dynamics from Unknown F.
复制链接

扫一扫