人工智能咨询培训老师叶梓 转载标明出处
由于标注视频编辑数据的稀缺,开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法,但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法,无需任何标注的视频编辑数据,就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例,如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。
方法
这种方法的核心在于将视频编辑任务分解为两个主要的能力:一是精确编辑图像,二是确保生成帧之间的时间连续性。
研究者们构建了一个包含图像编辑适配器和视频生成适配器的架构,这两个适配器共同堆叠在同一个文本到图像的backbone模型之上。他们选用了Emu模型作为backbone,这是一个潜在的扩散模型,其权重用θ表示。通过这种方式,研究者们能够开发并结合不同的组件以实现视频编辑。
对于视频生成适配器,研究者们利用了Emu Video,这是一个文本到视频(T2V)的模型,它在冻结的Emu模型之上包含了训练有素的时间层。这些时间层被视为视频适配器。具体而言文本到视频模型的输出表示为,其中
是文本到图像和视频适配器的权重,xs是噪声视频样本,s是时间步长,cout是输出视频标题。
为了创建图像编辑适配器,研究者们训练了一个ControlNet适配器,其参数为,在训练Emu Edit的数据集上进行训练。在训练过程中,研究者们遵循ControlNet训练的标准实践,并将适配器初始化为文本到图像模型的下层和中层块的副本。在训练期间,研究者们将文本到图像模型的条件设置为输出图像标题,同时使用输入图像和编辑指令作为ControlNet图像编辑适配器的输入。因此,图像编辑模型的输出可以表示为
,其中
是文本到图像和图像编辑适配器的权重,xs是噪声图像样本,s是时间步长,cout是输出图像标题,cinstruct是文本编辑指令,cimg是研究者们希望编辑的输入图像。
为了使模型具备视频编辑的能力,研究者们将这两个适配器同时附加到文本到图像的backbone上。他们的目标是使用输入视频cvid、编辑指令cinstruct和输出视频标题cout来去噪一个噪声编辑视频。值得注意的是,仅附加图像编辑适配器时,得到的函数将独立处理每一帧。因此,预测视频中的每一帧应该精确且忠实于输入帧和编辑指令,