1、《Efficient and Information-Preserving Future Frame Prediction and Beyond》
发表于2020ICLR,网络结构包括:编码、预测、解码 三部分内容。主要内容是引入two-way的方式。
原文链接:https://openreview.net/pdf?id=B1eY_pVYvB
代码连接:https://github.com/GilgameshYu/CrevNet-Traffic4cast
2、《Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction》
发表于2020 CVPR,主要思想是对运动估计的分解(disentangle),将未来估计拆分为物理先验驱动部分和黑箱部分。第一部分通过卷积拟合如大气运动的微分方程,第二部分拟合表征纹理等特征。
代码链接:https://github.com/vincent-leguen/PhyDNet
3、《Self-Attention ConvLSTM for Spatiotemporal Prediction》
发表于2020AAAI,从题目和文章方法介绍方面都很直白,没有绕来绕去强调方法特别之处,直白的说明了其基础模型就是self attention和convlstm的融合。除此之外,还引入了memory模块,其中memory和隐状态h都通过self attention聚合,且构造了近似于lstm的门控结构,在多个数据集有效。
代码:暂未公开及其他实现
4、《Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction》
发表于2021CVPR,主要思想是针对大规模视频数据集的分层变分自动编码器,基于贪心算法优化,每次只优化分层变分自动编码器的一层,而将其它层参数固定。模型包含:编码器、解码器、先验网络、后验推理网络四部分。
文章链接:
代码:暂未公开