TikTok(字节跳动)的新人工智能Boximator

AI 视频生成器最近占据了科技头条新闻,特别是在 OpenAI 宣布推出Sora之后,Sora 是他们的第一个视频模型,可以通过简单的文本提示生成令人惊叹的 AI 视频。

如今,制作 TikTok 的公司字节跳动也加入了这一行动。他们创建了Boximator,可以让您将静态图片转换为视频。

什么是 Boximator?

Boximator 将“box”和“animator”结合起来来描述其功能:使用用户定义的box对视频中的对象进行动画处理。该工具旨在让用户控制视频中对象的移动方式,提供硬盒和软盒的混合用于运动控制。

硬盒可实现精确的对象轮廓,而软盒可实现更流畅的运动路径。

在上面的示例中,所有边界框都投影到裁剪区域(白色虚线框)。

Boximator 的工作原理

以下是视频生成步骤:

  1. 对于数据集中的每个剪辑,都会使用视觉语言模型获取第一帧来生成图像描述。
  2. 然后他们从这些描述中提取名词块,比如“年轻人”或“白衬衫”。
  3. 这些提示被输入到预先训练的基础模型和对象跟踪器中,以生成边界框并将其填充到视频的所有帧中。

Boximator 的完整架构模型如下图所示。

在视频扩散模型的每个空间注意力块中,都有两个堆叠的注意力层:空间自注意力层和空间交叉注意力层。

本白皮书描述了其工作原理的完整细节。

训练数据集

与图像相反,带有对象跟踪注释的公开视频数据集并不多。工程师们根据WebVid-10M 数据集整理了他们的训练集。

WebVid-10M是一个大型短视频数据集,其文本描述来自素材网站。这些视频内容多样且丰富。

  • 1070 万对视频字幕。
  • 视频总时长52K

示例视频

以下是一些不错的例子:

提示:“The kitten is hiding herself into the cup”,“小猫把自己藏进杯子里”

提示:“A dog is chasing a red ball.”,“一只狗正在追一个红球。”

提示:“A young woman is turning her head, revealing her face in profile.”,“一位年轻女子转过头,露出了她的侧脸。”

提示:“A man sitting on a table is drinking a cup of coffee.”,“一个男人坐在桌子上正在喝一杯咖啡。”

与其他AI视频生成器的比较

下面的示例是与两种最流行的 AI 视频生成器Pika 1.0和Runway Gen2的比较。

:Pika 和 Gen-2 使用图像和文本条件;Boximator 使用源自文本提示的附加框约束。

提示:“Adding wine to a glass.”,“往杯子里加酒。”

Boximator(左)、Pika 1.0(中)、Gen2(右)

提示:“A handsome man is taking out a rose from his pocket with his right hand and looking at the rose.”,“一个英俊的男人用右手从口袋里掏出一朵玫瑰花,看着这朵玫瑰花。”

Boximator(左)、Pika 1.0(中)、Gen2(右)

提示:“Two raccoons in blue shirts are playing a ball, the left one is jumping up.”,“两只穿蓝色衬衫的浣熊正在玩球,左边的一只在跳起来。”

Boximator(左)、Pika 1.0(中)、Gen2(右)

觉得这些视频怎么样?

查看这些示例,很明显添加额外的控制层可以增强结果。Boximator 生成的视频比 Pika 和 Gen2 生成的视频更具动态性。

如何尝试

该演示网站目前不向公众开放。据其创建者称,它应该会在未来几个月内推出。

如果你真的想尝试 Boximator,你可以给创作者发电子邮件wangjiawei.424@bytedance.com,向他们发送输入图像和文字提示,然后他们会回复生成的视频。

最后的想法

作为一名技术爱好者,我很高兴看到科技巨头展示 Boximator 和 Sora 等在不久的将来我们可以触手可及的软件。

然而,重要的是要意识到与该技术相关的风险。与任何强大的工具一样,也有可能被滥用。例如,深度造假可用于传播错误信息或宣传。

  • 15
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是乌鸦的空间

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值