论文阅读(二):Decomposing Motion and Content for Video Generation

Abstract

提出的方法:
视频中的视觉信号可以分成内容和动作两部分
内容->视频中有什么
动作->描述运动

分解内容和运动的视频生成:将随机向量序列映射成视频序列
每个随机向量包括内容部分和动作部分,当内容部分确定后,动作部分被认为是一个随机过程
贡献:
为了以无监督的方式学习运动和内容分解,我们提出了一种新的同时使用图像和视频鉴别器的对抗性学习方案。
此外,我们还展示了MoCoGAN允许生成具有相同内容但不同运动的视频,以及具有不同内容和相同运动的视频

Introduction

问题提出:
深度生成模型最近受到越来越多的关注【1】,
这不仅是因为它们提供了一种无监督方式学习深度特征表示的方法,可以利用互联网上所有未标记的图像进行培训,同时也是因为它们可以用来生成各种视觉应用所需的新图像

先提出图片生成的问题–深度生成网络的作用
转到视频生成问题——【为什么要研究这个问题】
深度模型取得了成果(中心词是深度生成模型很重要)

对于无标签图像的问题1.样本生成
2.算法分类

->随着图像生成技术的不断进步,视频生成问题的研究也显得尤为重要【2】。

问题分析:
然而,从生成图像到生成视频的扩展是一项极具挑战性的任务,尽管生成的数据只有一个维度-时间维度。
我们认为,由于以下原因,视频生成要困难得多。
1.生成模型除了学习对象的外观模型之外,还需要学习对象的合理的物理运动模型。
2,每种速度模式都会产生不同的视频。
3,由于人类已经进化到对运动敏感,运动伪影特别容易察觉。

近期工作的问题:
思想一:点表示 VGAN、TGAN
假设视频剪辑是潜在空间中的一个点,不必要地增加了问题的复杂性,
因为同一动作的视频以不同的执行速度在潜在空间中用不同的点来表示。
此外,这一假设迫使每个生成的视频剪辑具有相同的长度,而
真实世界视频剪辑的长度各不相同。
2 思想二:遍历表示

推翻前人的假设

另一种选择 (和可能更直观、更有效) 的方法 一个潜在的图像空间,并考虑视频剪辑是通过遍历潜在空间中的点生成。不同长度的视频片段对应不同长度的潜空间轨迹。

将潜在空间分为内容和运动两个子空间
通过这个模型,不同执行速度的动作视频只会导致运动空间中轨迹的不同遍历速度。

分解运动和内容允许更有控制的视频生成过程。
在一个图像潜在空间(每个潜在代码表示一个图像)并。它通过采样内容子空间中的一个点并在运动子空间中采样不同的轨迹,生成同一对象执行不同运动的视频。通过对内容子空间中的不同点和运动子空间中相同的运动轨迹进行采样,生成不同对象执行相同运动的视频。

本文提出了一种用于视频生成的运动和内容分解生成对抗性网络(MoCoGAN)框架。
它通过依次生成视频帧来生成视频剪辑。在每个时间步骤,图像生成网络将随机向量映射到图像。该向量由两部分组成,其中第一部分从内容子空间取样,第二部分从运动子空间采样。

内容采样:由于短视频剪辑中的内容通常保持不变,我们使用高斯分布对内容空间进行建模,并使用相同的实现来生成视频剪辑中的每一帧。
运动采样:运动空间的采样是通过递归神经网络实现的,网络参数是在训练过程中学习到的。

尽管缺乏对自然视频中运动和内容分解的监督,但我们发现MoCoGAN可以通过一种新颖的对抗性训练方案来区分这两个因素。

通过广泛的定性和定量实验验证,并与现有的VGAN[41]和TGAN[31]等先进的方法进行比较,以及未来的帧预测方法,包括条件VGAN(C-VGAN)[41]和运动和内容网络(MCNET)[40],验证了MoCoGAN的有效性。

Related Work

早期:生成动态纹理模式
时下:GANs VAEs PixelCnns

GAN在图像生成中的研究

许多基于gan框架被提出:拉普拉斯金字塔、deep CNN、堆叠生成网络。
InfoGan:
Salimans等人提出了几个GAN训练技巧。
WGAN[3]和LSGAN[23]框架采用了另一种分布距离度量方法,用于更稳定的对抗性训练。
Roth等人提出了一种特殊的梯度惩罚来进一步稳定训练。
Karras等人使用逐步增长的鉴别器和生成器来生成高分辨率的图像。

【我们提出的框架】
MoCoGAN框架通过使用图像生成器按顺序生成图像来生成视频剪辑
该框架可以很容易地利用GAN框架中图像生成方面的进步来提高生成视频的质量.如第1节所述,[41,31]将GAN框架扩展到视频生成问题,假设视频剪辑的潜在空间中所有剪辑的长度相同。

RNN在图像生成中的研究

使用循环机制迭代地细化生成的图像

【我们提出的框架】:我们使用循环机制来生成视频剪辑中视频帧的运动嵌入。

图像生成通过CNN实现

未来帧预测问题:

是不同于视频生成问题的。在未来帧预测中,目标是根据视频中观察到的帧来预测视频中的未来帧。
1.生成下一帧的原始像素值
2.重组生成转换前一帧的像素构造下一帧
前一帧的可用性使得未来帧预测成为一个条件图像生成问题,这与生成网络的输入仅是来自潜在空间的向量的视频生成问题不同。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值