无需标注数据:引领视频编辑模型达到新高度

人工智能咨询培训老师叶梓 转载标明出处

由于标注视频编辑数据的稀缺,开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法,但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法,无需任何标注的视频编辑数据,就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例,如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。

方法

这种方法的核心在于将视频编辑任务分解为两个主要的能力:一是精确编辑图像,二是确保生成帧之间的时间连续性。

研究者们构建了一个包含图像编辑适配器和视频生成适配器的架构,这两个适配器共同堆叠在同一个文本到图像的backbone模型之上。他们选用了Emu模型作为backbone,这是一个潜在的扩散模型,其权重用θ表示。通过这种方式,研究者们能够开发并结合不同的组件以实现视频编辑。

对于视频生成适配器,研究者们利用了Emu Video,这是一个文本到视频(T2V)的模型,它在冻结的Emu模型之上包含了训练有素的时间层。这些时间层被视为视频适配器。具体而言文本到视频模型的输出表示为,其中是文本到图像和视频适配器的权重,xs是噪声视频样本,s是时间步长,cout是输出视频标题。

为了创建图像编辑适配器,研究者们训练了一个ControlNet适配器,其参数为,在训练Emu Edit的数据集上进行训练。在训练过程中,研究者们遵循ControlNet训练的标准实践,并将适配器初始化为文本到图像模型的下层和中层块的副本。在训练期间,研究者们将文本到图像模型的条件设置为输出图像标题,同时使用输入图像和编辑指令作为ControlNet图像编辑适配器的输入。因此,图像编辑模型的输出可以表示为,其中是文本到图像和图像编辑适配器的权重,xs是噪声图像样本,s是时间步长,cout是输出图像标题,cinstruct是文本编辑指令,cimg是研究者们希望编辑的输入图像。

为了使模型具备视频编辑的能力,研究者们将这两个适配器同时附加到文本到图像的backbone上。他们的目标是使用输入视频cvid、编辑指令cinstruct和输出视频标题cout来去噪一个噪声编辑视频。值得注意的是,仅附加图像编辑适配器时,得到的函数将独立处理每一帧。因此,预测视频中的每一帧应该精确且忠实于输入帧和编辑指令,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值