【论文阅读】Generating Videos with Scene Dynamics

【论文阅读】Generating Videos with Scene Dynamics

这篇论文属于一篇视频生成的论文,论文将视频的前景和背景进行了解耦,分别使用3D卷积网络生成运动前景和使用2D卷积网络生成静态背景,同时在生成的过程之中使用了含有mask的显性表达式,之后会详细地介绍。

正文

该文章将运动前景的生成和静态背景的生成解耦了,首先输入为100维的噪声向量,然后使用3D转置卷积网络生成运动前景,使用2D转置卷积网络生成运动背景,并使用mask来构建显性表达式约束网络的优化,整个网络结构如下图所示:
在这里插入图片描述

  • 前景流
    前景的生成使用的是3D转置卷积网络,因为3D转置卷积网络在生成视频的时候理论上会保证空间和时间的一致性,这种并行生成的网络与RNN等串行生成网络相比,可以有效地防止误差的累积而产生的视频内容的漂移。前景流使用的3D转置卷积核的大小为 4 × 4 × 4 4\times4\times4 4×4×4,步长为 2 2 2,除了第一层的转置卷积核的大小为 2 × 4 × 4 2\times4\times4 2×4×4,文章认为这种大小的卷积核可以很好地平衡训练速度和生成视频的质量。
  • 背景流
    背景流假设生成的视频中的背景为静态的,直接使用一个2D转置卷积网络从噪声中生成背景,2D转置卷积网络的结构借鉴了DCGAN的基本结构。
  • 运动前景和静态背景的mask融合
    文章使用一个mask的方法融合生成视频的运动前景和静态背景。如图中所示,在前景流的倒数第二层转置3D卷积层中,网络分叉了,一路使用3D转置卷积层生成视频帧,一路使用3D转置卷积层生成mask,他们的大小是一致的,并且他们网络的前部分是参数共享的。然后文章使用了一个显性表达式来约束网络,如下式所示:
    在这里插入图片描述
    其中 m ( z ) m(z) m(z)表示生成的mask(使用了sigmoid约束了0-1的数值范围), f ( z ) f(z) f(z)表示生成的前景视频, b ( z ) b(z) b(z)表示生成的背景图像,为了使得 b ( z ) b(z) b(z)的维度和 m ( z ) m(z) m(z) f ( z ) f(z) f(z)的维度相同,并且参考静态背景的假设下,对 b ( z ) b(z) b(z)沿着时间复制,从而可以计算得到最终的生成的视频为 G 2 ( z ) G_{2}(z) G2(z)。在训练的时候,也给mask加了一个正则项 ∣ m ( z ) ∣ 1 |m(z)|_{1} m(z)1,权重设置为了0.1,目的是为了让mask不那么宽泛,能够让网络使用到背景流的信息。
    \quad 最终网络生成的视频的大小为 32 × 64 × 64 32\times64\times64 32×64×64
  • 判别器
    文章中使用到的判别器是3D卷积神经网络,该判别器包含有5层卷积层,每一层卷积核的尺寸为 4 × 4 × 4 4\times4\times4 4×4×4,这个结构就和前景流中的反卷积网络反过来一样。

实验

文章首先列出了一些定性的实验结果:

  1. 生成的静态背景都是足够地sharp
  2. 目标的运动相对于各自的场景往往也都是合理的
  3. 但是运动的目标往往都是不怎么清晰的

其他的还做了无监督特征分类和视频预测的任务,这里就不再详细地说了。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
音乐转换器是一种能够生成具有长期结构的音乐的技术。传统上,音乐生成模型主要依赖于自回归模型,即根据前面的音符预测下一个音符。这种方法很难捕捉到音乐的长期结构,因为它只关注于当前音符与前面音符的关系。 然而,音乐转换器采用了一种全新的方法。它将音乐的生成问题转化为基于自注意力机制的序列到序列问题。自注意力机制允许模型在生成每个音符时考虑到整个音乐序列的信息,而不仅仅是前面的音符。 此外,音乐转换器还引入了一种基于位置编码和层归一化的技术,来增强模型对音乐序列的表征能力和泛化能力。位置编码在序列中为每个位置分配一个向量,以提供位置信息。而层归一化则可以确保模型的每一层都保持相似的输出分布,从而提高模型的训练稳定性和生成效果。 通过这些创新技术的运用,音乐转换器能够更好地捕捉到音乐的长期结构。它可以生成具有旋律、和声和节奏等多个音乐要素的音乐片段,并且这些片段之间能够形成完整的结构,如引言、主题、发展和回旋等。 总之,音乐转换器是一种利用自注意力机制、位置编码和层归一化等技术生成具有长期结构的音乐的方法。它的创新之处在于能够全局考虑音乐序列的信息,并能够生成具有完整结构的音乐片段。这使得音乐转换器成为一个有潜力的工具,在音乐创作和生成领域有着广阔的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值