无需标注数据：引领视频编辑模型达到新高度

最新推荐文章于 2025-05-18 17:39:16 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2025-05-18 17:39:16 发布

阅读量1.9k

点赞数 39

分类专栏：人工智能文章标签：人工智能深度学习无监督学习视频编辑图像处理计算机视觉大模型

本文链接：https://blog.csdn.net/weixin_44292902/article/details/141430811

版权

人工智能咨询培训老师叶梓转载标明出处

由于标注视频编辑数据的稀缺，开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法，但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法，无需任何标注的视频编辑数据，就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例，如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。

方法

这种方法的核心在于将视频编辑任务分解为两个主要的能力：一是精确编辑图像，二是确保生成帧之间的时间连续性。

研究者们构建了一个包含图像编辑适配器和视频生成适配器的架构，这两个适配器共同堆叠在同一个文本到图像的backbone模型之上。他们选用了Emu模型作为backbone，这是一个潜在的扩散模型，其权重用θ表示。通过这种方式，研究者们能够开发并结合不同的组件以实现视频编辑。

对于视频生成适配器，研究者们利用了Emu Video，这是一个文本到视频（T2V）的模型，它在冻结的Emu模型之上包含了训练有素的时间层。这些时间层被视为视频适配器。具体而言文本到视频模型的输出表示为，其中是文本到图像和视频适配器的权重，xs是噪声视频样本，s是时间步长，cout是输出视频标题。

为了创建图像编辑适配器，研究者们训练了一个ControlNet适配器，其参数为，在训练Emu Edit的数据集上进行训练。在训练过程中，研究者们遵循ControlNet训练的标准实践，并将适配器初始化为文本到图像模型的下层和中层块的副本。在训练期间，研究者们将文本到图像模型的条件设置为输出图像标题，同时使用输入图像和编辑指令作为ControlNet图像编辑适配器的输入。因此，图像编辑模型的输出可以表示为，其中是文本到图像和图像编辑适配器的权重，xs是噪声图像样本，s是时间步长，cout是输出图像标题，cinstruct是文本编辑指令，cimg是研究者们希望编辑的输入图像。

为了使模型具备视频编辑的能力，研究者们将这两个适配器同时附加到文本到图像的backbone上。他们的目标是使用输入视频cvid、编辑指令cinstruct和输出视频标题cout来去噪一个噪声编辑视频。值得注意的是，仅附加图像编辑适配器时，得到的函数将独立处理每一帧。因此，预测视频中的每一帧应该精确且忠实于输入帧和编辑指令，