视频生成或编辑
文章平均质量分 96
记录视频生成或编辑领域论文读书笔记
zzfive
这个作者很懒,什么都没留下…
展开
-
SORA技术报告
文档链接:https://openai.com/research/video-generation-models-as-world-simulators。原创 2024-02-24 23:01:00 · 783 阅读 · 0 评论 -
NUWA论文阅读
本文提出了一个统一的多模态预训练模型,称为NUWA,可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。为了在不同场景下同时覆盖语言、图像和视频,设计了一种3D Transformer编码器-解码器框架,该框架不仅可以将视频作为3D数据处理,还可以将文本和图像分别作为1D和2D数据处理。为了考虑视觉数据的性质,降低计算复杂度,提出了一种3D Nearby Attention(3DNA)机制。在8个下游任务上评估了N UWA。原创 2023-10-04 16:10:43 · 516 阅读 · 0 评论 -
Tune-A-Video论文阅读
为了复制文本到图像 (T2I) 生成的成功,最近的工作使用大规模视频数据集来训练文本到视频 (T2V) 生成器。尽管他们的结果很有希望,但这种范式的计算成本很高。本工作提出了一种新的 T2V 生成设置——One-Shot Video Tuning,仅需要一个文本-视频对。本文中模型为了进一步学习连续运动,引入了Tune-A-Video,它涉及定制的时空注意机制和有效的一次性调整策略。本文做出两个关键观察:1)T2I 模型可以生成仍然代表动词术语的图像;原创 2023-09-24 21:12:30 · 960 阅读 · 0 评论 -
GODIVA论文阅读
从文本生成视频任务是极具挑战性的任务,由于其训练的高计算需求和答案无限性难以评估。当前的工作通常在简单或小型数据集上进行实现,泛化能力非常有限。本工作提出了GODIVA,一种开放域文本到视频的预训练模型,可以使用三维稀疏注意机制以自回归的方式从文本中生成视频。在 Howto100M 上预训练模型,这是一个包含超过 13600 万个文本-视频对的大规模文本-视频数据集。实验表明,GODIVA 不仅可以在下游视频生成任务上进行微调,而且在zero-shot的文本上也具有良好的零样本能力。原创 2023-09-17 17:31:33 · 503 阅读 · 3 评论