51-49 CVPR 2024 | OMG：通过混合控制器实现开放词汇的运动生成

深圳季连AIgraphX

已于 2024-05-15 07:31:36 修改

阅读量1.1k

点赞数 31

分类专栏： aiXpilot 智驾大模型文章标签：计算机视觉 AIGC 自动驾驶智慧城市 stable diffusion

于 2024-05-06 14:31:37 首次发布

本文链接：https://blog.csdn.net/weixin_45035094/article/details/138255980

版权

aiXpilot 智驾大模型专栏收录该内容

58 篇文章 33 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

OMG是一种文本到运动生成框架，通过预训练和微调结合混合控制器，实现开放词汇文本提示下逼真运动的生成。预训练阶段使用大量未标注运动数据增强模型能力，微调阶段引入运动ControlNet和混合控制MoC块，将文本提示与运动特征对齐。OMG在零样本文本到运动生成中优于现有技术。

摘要由CSDN通过智能技术生成

23年12月，腾讯联合上海科技大学联合发布OMG：Towards Open-vocabulary Motion Generation via Mixture of Controllers，从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中，主要贡献是扩大了模型和数据集大小，以及引入motion ControlNet和混合控制MoC块，有效地将文本提示CLIP令牌嵌入与各种紧凑和富有表现力的运动特征对齐。

与之同期工作的MotionCtrl控制器，由腾讯联合香港大学、上海AI实验室、清华大学等机构共同推出，它能够独立地控制视频中的相机运动和物体运动视角，可以与潜在视频扩散模型协同工作，以实现对生成视频中运动视角的精确控制。

Abstract

最近看到在逼真的文本到运动生成方面取得了巨大进展。然而，现有的方法经常失败，或者使用没见过的文本输入产生难以置信的运动，这限制了应用推广。在本文中，我们提出了 OMG，这是一个新颖框架，可以从零样本开放词汇文本提示中生成引人注目的运动。我们的关键思想是将 pretrain-then-finetune 范式仔细调整到文本-运动的生成中。在预训练阶段，我们的模型通过学习丰富的域外固有运动特征来提高生成能力。为此，我们将大型无条件扩散模型扩展到 1B 参数，以便利用多达 20M 个运动实例的大规模未标记运动