51-44 Generating Long Videos of Dynamic Scenes,生成动态场景长视频

22年6月,NVIDIA, UC Berkeley联合发布Generating Long Videos of Dynamic Scenes,这也是Sora技术报告中提及的32篇论文之一。

作者的主要贡献是提出了分层生成器架构Hierarchical Generator Architecture,该架构采用了巨大的时间感受野和创新的时间嵌入,优先考虑时间轴Time axis。通过多分辨率方法Multi-Resolution,首先生成低分辨率的视频,然后使用单独的超分辨率网络对其进行细化,生成丰富动态Rich and Dynamics的任意长视频Arbitrarily Long Videos。

Abstract

我们提出了一个视频生成模型,可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。现有的视频生成方法往往无法在保持真实环境中预期的一致性的同时产生作为时间函数的新内容,例如看似合理的动态和对象持续性。一个常见的失败案例是由于过度依赖归纳偏置来提供时间一致性,内容永远不会改变。例如使用单个潜在编码来指示整个视频内容。另一方面,在没有长期一致性的情况下,生成的视频在不同的场景之间可能存在不切实际地变形。为了解决这些限制,我们通过重新设计时间潜在表示来优先考虑时间轴,并通过在较长视频上进行训练来从数据中学习长期一致性。为此,我们利用两阶段训练策略,我们分别使用低分辨率的较长视频和高分辨率的较短视频进行训练。为了评估我们模型的能力,我们引入了两个新的基准数据集,明确关注长时间动态。

1 Introduction

ideos 是随时间变化的数据,具有复杂的相机视点模式、运动、变形和遮挡。在某些方面,视频是无界的——它们可能会持续任意长的时间,并且随着时间的推移,可能出现的新内容数量没有限制。然而࿰

  • 23
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
音乐转换器是一种能够生成具有期结构的音乐的技术。传统上,音乐生成模型主要依赖于自回归模型,即根据前面的音符预测下一个音符。这种方法很难捕捉到音乐的期结构,因为它只关注于当前音符与前面音符的关系。 然而,音乐转换器采用了一种全新的方法。它将音乐的生成问题转化为基于自注意力机制的序列到序列问题。自注意力机制允许模型在生成每个音符时考虑到整个音乐序列的信息,而不仅仅是前面的音符。 此外,音乐转换器还引入了一种基于位置编码和层归一化的技术,来增强模型对音乐序列的表征能力和泛化能力。位置编码在序列中为每个位置分配一个向量,以提供位置信息。而层归一化则可以确保模型的每一层都保持相似的输出分布,从而提高模型的训练稳定性和生成效果。 通过这些创新技术的运用,音乐转换器能够更好地捕捉到音乐的期结构。它可以生成具有旋律、和声和节奏等多个音乐要素的音乐片段,并且这些片段之间能够形成完整的结构,如引言、主题、发展和回旋等。 总之,音乐转换器是一种利用自注意力机制、位置编码和层归一化等技术生成具有期结构的音乐的方法。它的创新之处在于能够全局考虑音乐序列的信息,并能够生成具有完整结构的音乐片段。这使得音乐转换器成为一个有潜力的工具,在音乐创作和生成领域有着广阔的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值