视频预测相关方法记录

20 篇文章 6 订阅
1 篇文章 0 订阅

1、《Efficient and Information-Preserving Future Frame Prediction and Beyond》

发表于2020ICLR,网络结构包括:编码、预测、解码 三部分内容。主要内容是引入two-way的方式。

原文链接:https://openreview.net/pdf?id=B1eY_pVYvB

代码连接:https://github.com/GilgameshYu/CrevNet-Traffic4cast

2、《Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction》

发表于2020 CVPR,主要思想是对运动估计的分解(disentangle),将未来估计拆分为物理先验驱动部分和黑箱部分。第一部分通过卷积拟合如大气运动的微分方程,第二部分拟合表征纹理等特征。

原文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Le_Guen_Disentangling_Physical_Dynamics_From_Unknown_Factors_for_Unsupervised_Video_Prediction_CVPR_2020_paper.pdf

代码链接:https://github.com/vincent-leguen/PhyDNet

3、《Self-Attention ConvLSTM for Spatiotemporal Prediction》

发表于2020AAAI,从题目和文章方法介绍方面都很直白,没有绕来绕去强调方法特别之处,直白的说明了其基础模型就是self attention和convlstm的融合。除此之外,还引入了memory模块,其中memory和隐状态h都通过self attention聚合,且构造了近似于lstm的门控结构,在多个数据集有效。

文章链接:Self-Attention ConvLSTM for Spatiotemporal Prediction| Proceedings of the AAAI Conference on Artificial Intelligence

代码:暂未公开及其他实现

4、《Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction》

发表于2021CVPR,主要思想是针对大规模视频数据集的分层变分自动编码器,基于贪心算法优化,每次只优化分层变分自动编码器的一层,而将其它层参数固定。模型包含:编码器、解码器、先验网络、后验推理网络四部分。

文章链接:

https://openaccess.thecvf.com/content/CVPR2021/papers/Wu_Greedy_Hierarchical_Variational_Autoencoders_for_Large-Scale_Video_Prediction_CVPR_2021_paper.pdf 

代码:暂未公开

  • 2
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值