腾讯震撼发布！MOFA-Video：表情随心换，运动由你控，视频创作由你做主！

最新推荐文章于 2025-03-27 14:39:44 发布

AIGC Studio

最新推荐文章于 2025-03-27 14:39:44 发布

阅读量972

点赞数 13

分类专栏： AIGC 深度学习论文阅读文章标签：音视频计算机视觉人工智能 AIGC

本文链接：https://blog.csdn.net/xs1997/article/details/140418951

版权

深度学习同时被 3 个专栏收录

333 篇文章

订阅专栏

AIGC

325 篇文章

订阅专栏

论文阅读

234 篇文章

订阅专栏

腾讯开源了一个非常全面的视频控制方式 MOFA-Video。支持通过箭头控制视频内容的运动方向，类似运动笔刷。还支持将原有视频的面部表情迁移到新生成的人脸视频上。上面两种控制方式也可以同时在一个画面中使用。

论文阅读

MOFA-Video:通过生成运动场适应冻结图像到视频扩散模型的可控图像动画

摘要

我们提出了 MOFA-Video，这是一种先进的可控图像动画方法，它使用各种额外的可控信号（例如人体地标参考、手动轨迹，甚至提供的另一个视频）或它们的组合从给定的图像生成视频。这与以前的方法不同，以前的方法只能在特定的运动域上工作，或者在扩散之前表现出较弱的控制能力。

为了实现我们的目标，我们设计了几个领域感知的运动场适配器（即 MOFA-Adapters）来控制视频生成管道中生成的运动。对于 MOFA-Adapters，我们首先考虑视频的时间运动一致性，并从给定的稀疏控制条件生成密集的运动流，然后将给定图像的多尺度特征包装为引导特征，以稳定地生成视频扩散。我们为手动轨迹和人体地标分别训练两个运动适配器，因为它们都包含有关控制的稀疏信息。经过训练，不同领域的 MOFA-Adapters 也可以协同工作，实现更可控的视频生成。