51-49 CVPR 2024 | OMG:通过混合控制器实现开放词汇的运动生成

OMG是一种文本到运动生成框架,通过预训练和微调结合混合控制器,实现开放词汇文本提示下逼真运动的生成。预训练阶段使用大量未标注运动数据增强模型能力,微调阶段引入运动ControlNet和混合控制MoC块,将文本提示与运动特征对齐。OMG在零样本文本到运动生成中优于现有技术。
摘要由CSDN通过智能技术生成

23年12月,腾讯联合上海科技大学联合发布OMG:Towards Open-vocabulary Motion Generation via Mixture of Controllers,从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中,主要贡献是扩大了模型和数据集大小,以及引入motion ControlNet和混合控制MoC块,有效地将文本提示CLIP令牌嵌入与各种紧凑和富有表现力的运动特征对齐。

与之同期工作的MotionCtrl控制器,由腾讯联合香港大学、上海AI实验室、清华大学等机构共同推出,它能够独立地控制视频中的相机运动和物体运动视角,可以与潜在视频扩散模型协同工作,以实现对生成视频中运动视角的精确控制。

Abstract

最近看到在逼真的文本到运动生成方面取得了巨大进展。然而,现有的方法经常失败,或者使用没见过的文本输入产生难以置信的运动,这限制了应用推广。在本文中,我们提出了 OMG,这是一个新颖框架,可以从零样本开放词汇文本提示中生成引人注目的运动。我们的关键思想是将 pretrain-then-finetune 范式仔细调整到文本-运动的生成中。在预训练阶段,我们的模型通过学习丰富的域外固有运动特征来提高生成能力。为此,我们将大型无条件扩散模型扩展到 1B 参数,以便利用多达 20M 个运动实例的大规模未标记运动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值