【ICCV2023】MMVP：基于运动矩阵的视频预测-CSDN博客

本文链接：https://blog.csdn.net/woshicver/article/details/134389721

MMVP是一种基于运动矩阵的视频预测框架，通过解耦运动和外观信息提高预测准确性和效率。它构建外观无关的运动矩阵，用以预测视频中对象的未来运动，同时保持帧间外观一致性。MMVP在UCF Sports等数据集上表现优于现有方法，且模型大小显著减小。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://openaccess.thecvf.com/content/ICCV2023/html/Zhong_MMVP_Motion-Matrix-Based_Video_Prediction_ICCV_2023_paper.html

代码：https://github.com/Kay1794/MMVP-motion-matrix-based-video-prediction

引用：Zhong Y, Liang L, Zharkov I, et al. MMVP: Motion-Matrix-based Video Prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4273-4283.

导读

本文讨论了视频预测领域的一个核心挑战，即在图像帧中推测对象的未来运动同时保持它们在各帧之间外观的一致性。为了解决这一问题，作者引入了一种端到端可训练的两流视频预测框架，称为“Motion-Matrix-based Video Prediction”（MMVP）。

与以往的方法不同，以往的方法通常在相同的模块内处理运动预测和外观维护，MMVP通过构建外观无关的运动矩阵来解耦运动和外观信息。这些运动矩阵表示输入帧中每对特征块的时间相似性，它们是MMVP中运动预测模块的唯一输入。这种设计提高了视频预测的准确性和效率，并降低了模型大小。

广泛的实验证明，MMVP在公共数据集上的表现优于最先进的方法，性能提升显著（在PSNR上提高了约1 dB，例如 UCF Sports数据集），而模型大小却显著减小（相当于84%或更小的模型尺寸）。

本文方法

给定一个视频序列

，其中 It 表示第t帧，通常是RGB格式。MMVP估计未来的T‘帧，即