Stability AI发布3D模型生成AI稳定视频3D

最新推荐文章于 2025-05-12 11:08:18 发布

JJJ69

最新推荐文章于 2025-05-12 11:08:18 发布

阅读量423

点赞数 14

分类专栏：翻译文章标签：人工智能 3d

原文链接：https://www.infoq.com/news/2024/04/stable-video-3d/

版权

翻译专栏收录该内容

140 篇文章

订阅专栏

稳定性AI近期发布稳定的3D视频 (SV3D），一种可以从单个 2D 图像生成 3D 网格对象模型的 AI 模型。 SV3D 是基于稳定的视频扩散模型并在 3D 对象生成基准上产生最先进的结果.

SV3D 解决了新颖视图合成 (NVS) 的问题，它尝试在给定对象的一个或多个 2D 图像的情况下生成该对象不可见的部分：例如，在给定对象正面图像的情况下生成对象背面的视图。 Stability AI 利用其现有的稳定视频扩散模型，其中包括摄像机控制能力，使其能够生成轨道视频，其中相机围绕感兴趣的对象转一圈。该模型使用从 3D 对象渲染的数据集进行了微调奥布贾宇宙数据集。当评估在地球同步轨道和 OmniObject3D 在基准测试中，SV3D 的性能优于基准模型，并实现了新的最先进性能。根据稳定人工智能:

稳定视频 3D 引入了 3D 生成方面的重大进步，特别是在新颖的视图合成方面。以前的方法常常要解决有限的视角和输出不一致的问题，与此不同的是，稳定视频 3D 能够从任何给定角度提供连贯的视图，并具有熟练的概括能力。此功能不仅增强了姿态可控性，还确保了多个视图中对象外观的一致性，进一步改善了真实且准确的 3D 生成的关键方面.

InfoQ 报道了 SV3D 的底层技术, 稳定的视频扩散 (SVD），于 2023 年发布。Stability AI 也在晚些时候发布了 3D 生成的早期尝试 2023: 稳定零位123. 这是基于他们的 Stable Diffusion 1.5 文本到图像模型。这项工作的灵感来自于开源零123 3D一代模型创建艾伦人工智能研究所 (AI2) 作为 Objaverse 项目的一部分.

Zero123 和稳定 Zero123 方法的一个缺点是这些模型“未设计为多视图一致”，因为它们一次仅创建一帧的新视图，因此缺乏 3D 生成的“最关键要求”。相比之下，SVD 模型经过显式训练以生成一致的多帧视频。另一个优点是它允许摄像机控制，这不仅仅可以生成简单的轨道 3D 视频。 Stability AI 表示：“据我们所知，SV3D 是第一个基于视频扩散的框架，用于 576x576 分辨率的可控多视图合成."

为了训练 SV3D，Stability AI 使用了 Objaverse 中的对象，并从不同的摄像机角度渲染了每个对象的 21 帧。他们训练了 SV3D 的三个版本：一种仅使用静态轨道进行训练，一种仅使用动态轨道进行训练，第三种同时使用静态和动态轨道进行训练。第三个模型比其他两个模型取得了更好的评估指标.

在有关 SV3D 的黑客新闻帖子中，用户讨论了可能的应用模型的。一位用户写道: