23年12月,腾讯联合上海科技大学联合发布OMG:Towards Open-vocabulary Motion Generation via Mixture of Controllers,从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中,主要贡献是扩大了模型和数据集大小,以及引入motion ControlNet和混合控制MoC块,有效地将文本提示CLIP令牌嵌入与各种紧凑和富有表现力的运动特征对齐。
与之同期工作的MotionCtrl控制器,由腾讯联合香港大学、上海AI实验室、清华大学等机构共同推出,它能够独立地控制视频中的相机运动和物体运动视角,可以与潜在视频扩散模型协同工作,以实现对生成视频中运动视角的精确控制。
Abstract
最近看到在逼真的文本到运动生成方面取得了巨大进展。然而,现有的方法经常失败,或者使用没见过的文本输入产生难以置信的运动,这限制了应用推广。在本文中,我们提出了 OMG,这是一个新颖框架,可以从零样本开放词汇文本提示中生成引人注目的运动。我们的关键思想是将 pretrain-then-finetune 范式仔细调整到文本-运动的生成中。在预训练阶段,我们的模型通过学习丰富的域外固有运动特征来提高生成能力。为此,我们将大型无条件扩散模型扩展到 1B 参数,以便利用多达 20M 个运动实例的大规模未标记运动