TikTok（字节跳动）的新人工智能Boximator

我是乌鸦的空间

于 2024-03-07 12:37:04 发布

阅读量1.2k

点赞数 15

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45034594/article/details/136530297

版权

文章介绍了字节跳动开发的AI视频生成工具Boximator，它通过文本提示和边界框控制生成动态视频。与OpenAI的Sora相比，Boximator提供了更多定制性。同时，文章讨论了技术背后的风险与滥用可能性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI 视频生成器最近占据了科技头条新闻，特别是在 OpenAI 宣布推出Sora之后，Sora 是他们的第一个视频模型，可以通过简单的文本提示生成令人惊叹的 AI 视频。

如今，制作 TikTok 的公司字节跳动也加入了这一行动。他们创建了Boximator，可以让您将静态图片转换为视频。

什么是 Boximator？

Boximator 将“box”和“animator”结合起来来描述其功能：使用用户定义的box对视频中的对象进行动画处理。该工具旨在让用户控制视频中对象的移动方式，提供硬盒和软盒的混合用于运动控制。

硬盒可实现精确的对象轮廓，而软盒可实现更流畅的运动路径。

在上面的示例中，所有边界框都投影到裁剪区域（白色虚线框）。

Boximator 的工作原理

以下是视频生成步骤：

对于数据集中的每个剪辑，都会使用视觉语言模型获取第一帧来生成图像描述。
然后他们从这些描述中提取名词块，比如“年轻人”或“白衬衫”。
这些提示被输入到预先训练的基础模型和对象跟踪器中，以生成边界框并将其填充到视频的所有帧中。

Boximator 的完整架构模型如下图所示。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我是乌鸦的空间 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。