AI 视频生成器最近占据了科技头条新闻,特别是在 OpenAI 宣布推出Sora之后,Sora 是他们的第一个视频模型,可以通过简单的文本提示生成令人惊叹的 AI 视频。
如今,制作 TikTok 的公司字节跳动也加入了这一行动。他们创建了Boximator,可以让您将静态图片转换为视频。
什么是 Boximator?
Boximator 将“box”和“animator”结合起来来描述其功能:使用用户定义的box对视频中的对象进行动画处理。该工具旨在让用户控制视频中对象的移动方式,提供硬盒和软盒的混合用于运动控制。
硬盒可实现精确的对象轮廓,而软盒可实现更流畅的运动路径。
在上面的示例中,所有边界框都投影到裁剪区域(白色虚线框)。
Boximator 的工作原理
以下是视频生成步骤:
- 对于数据集中的每个剪辑,都会使用视觉语言模型获取第一帧来生成图像描述。
- 然后他们从这些描述中提取名词块,比如“年轻人”或“白衬衫”。
- 这些提示被输入到预先训练的基础模型和对象跟踪器中,以生成边界框并将其填充到视频的所有帧中。
Boximator 的完整架构模型如下图所示。