论文阅读（二）：Decomposing Motion and Content for Video Generation

最新推荐文章于 2024-05-28 09:35:54 发布

Monmoka

最新推荐文章于 2024-05-28 09:35:54 发布

阅读量1.7k

点赞数 4

本文链接：https://blog.csdn.net/ydy_2017211924/article/details/100902736

版权

Abstract

提出的方法：
视频中的视觉信号可以分成内容和动作两部分
内容->视频中有什么
动作->描述运动

分解内容和运动的视频生成：将随机向量序列映射成视频序列
每个随机向量包括内容部分和动作部分，当内容部分确定后，动作部分被认为是一个随机过程
贡献：
为了以无监督的方式学习运动和内容分解，我们提出了一种新的同时使用图像和视频鉴别器的对抗性学习方案。
此外，我们还展示了MoCoGAN允许生成具有相同内容但不同运动的视频，以及具有不同内容和相同运动的视频

Introduction

问题提出：
深度生成模型最近受到越来越多的关注【1】，
这不仅是因为它们提供了一种无监督方式学习深度特征表示的方法，可以利用互联网上所有未标记的图像进行培训，同时也是因为它们可以用来生成各种视觉应用所需的新图像。

先提出图片生成的问题–深度生成网络的作用
转到视频生成问题——【为什么要研究这个问题】
深度模型取得了成果（中心词是深度生成模型很重要）

对于无标签图像的问题1.样本生成
2.算法分类

->随着图像生成技术的不断进步，视频生成问题的研究也显得尤为重要【2】。

问题分析：
然而，从生成图像到生成视频的扩展是一项极具挑战性的任务，尽管生成的数据只有一个维度-时间维度。
我们认为，由于以下原因，视频生成要困难得多。
1.生成模型除了学习对象的外观模型之外，还需要学习对象的合理的物理运动模型。
2，每种速度模式都会产生不同的视频。
3，由于人类已经进化到对运动敏感，运动伪影特别容易察觉。

近期工作的问题：
思想一：点表示 VGAN、TGAN
假设视频剪辑是潜在空间中的一个点，不必要地增加了问题的复杂性，
因为同一动作的视频以不同的执行速度在潜在空间中用不同的点来表示。
此外，这一假设迫使每个生成的视频剪辑具有相同的长度，而
真实世界视频剪辑的长度各不相同。
2 思想二：遍历表示

推翻前人的假设

另一种选择 (和可能更直观、更有效) 的方法一个潜在的图像空间，并考虑视频剪辑是通过遍历潜在空间中的点生成。不同长度的视频片段对应不同长度的潜空间轨迹。

将潜在空间分为内容和运动两个子空间
通过这个模型，不同执行速度的动作视频只会导致运动空间中轨迹的不同遍历速度。

分解运动和内容允许更有控制的视频生成过程。
在一个图像潜在空间(每个潜在代码表示一个图像)并。它通过采样内容子空间中的一个点并在运动子空间中采样不同的轨迹，生成同一对象执行不同运动的视频。通过对内容子空间中的不同点和运动子空间中相同的运动轨迹进行采样，生成不同对象执行相同运动的视频。

本文提出了一种用于视频生成的运动和内容分解生成对抗性网络(MoCoGAN)框架。
它通过依次生成视频帧来生成视频剪辑。在每个时间步骤，图像生成网络将随机向量映射到图像。该向量由两部分组成，其中第一部分从内容子空间取样，第二部分从运动子空间采样。

内容采样：由于短视频剪辑中的内容通常保持不变，我们使用高斯分布对内容空间进行建模，并使用相同的实现来生成视频剪辑中的每一帧。
运动采样：运动空间的采样是通过递归神经网络实现的，网络参数是在训练过程中学习到的。

尽管缺乏对自然视频中运动和内容分解的监督，但我们发现MoCoGAN可以通过一种新颖的对抗性训练方案来区分这两个因素。

通过广泛的定性和定量实验验证，并与现有的VGAN[41]和TGAN[31]等先进的方法进行比较，以及未来的帧预测方法，包括条件VGAN(C-VGAN)[41]和运动和内容网络(MCNET)[40]，验证了MoCoGAN的有效性。

Related Work

早期：生成动态纹理模式
时下：GANs VAEs PixelCnns

GAN在图像生成中的研究：

许多基于gan框架被提出：拉普拉斯金字塔、deep CNN、堆叠生成网络。
InfoGan:
Salimans等人提出了几个GAN训练技巧。
WGAN[3]和LSGAN[23]框架采用了另一种分布距离度量方法，用于更稳定的对抗性训练。
Roth等人提出了一种特殊的梯度惩罚来进一步稳定训练。
Karras等人使用逐步增长的鉴别器和生成器来生成高分辨率的图像。

【我们提出的框架】
MoCoGAN框架通过使用图像生成器按顺序生成图像来生成视频剪辑
该框架可以很容易地利用GAN框架中图像生成方面的进步来提高生成视频的质量.如第1节所述，[41,31]将GAN框架扩展到视频生成问题，假设视频剪辑的潜在空间中所有剪辑的长度相同。

RNN在图像生成中的研究：

使用循环机制迭代地细化生成的图像

【我们提出的框架】：我们使用循环机制来生成视频剪辑中视频帧的运动嵌入。

图像生成通过CNN实现

未来帧预测问题：

是不同于视频生成问题的。在未来帧预测中，目标是根据视频中观察到的帧来预测视频中的未来帧。

最低0.47元/天解锁文章

Monmoka

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文阅读（二）：Decomposing Motion and Content for Video Generation

Abstract视频中的视觉信号可以分成内容和动作两部分内容->视频中有什么动作->描述运动分解内容和运动的视频生成：将随机向量序列映射成视频序列每个随机向量包括内容部分和动作部分，当内容部分确定后，动作部分被认为是一个随机过程为了以无监督的方式学习运动和内容分解，我们提出了一种新的基于图像和视频鉴别器的对抗性学习方案。Introduction深生成模型最近受到越来越多...
复制链接

扫一扫

专栏目录