升级版本的EchoMimic来了!一张半身照+音频,就能生成带手势的数字人视频。

在之前的文章中已经给大家介绍过蚂蚁集团的开源数字人项目EchoMimic,现在EchoMimic升级到V2版本了,V1仅是用图片和音频生成数字脸,V2就是真正的数字人了。一张半身照片,配上中文或英语音频,就能生成带手势的数字人视频。

EchoMimicV2利用参考图像、音频片段和一系列手部姿势来生成高质量的动画视频,确保音频内容和半身动作之间的连贯性。

视频展示:

相关链接

  • 论文:https://arxiv.org/pdf/2411.10061

  • 代码:https://github.com/antgroup/echomimic_v2

  • 模型:https://huggingface.co/BadToBest/EchoMimicV2

  • 主页:https://antgroup.github.io/ai/echomimic_v2

论文介绍

近期关于人体动画的研究通常涉及音频、姿势或运动图条件,从而实现逼真的动画质量。然而,这些方法往往面临实际挑战,因为额外的控制条件、繁琐的条件注入模块或头部区域驱动的限制。因此,是否有可能在简化不必要条件的同时实现引人注目的半身人体动画。

为此,论文提出了一种半身人体动画方法称为EchoMimicV2,该方法利用一种新颖的音频姿势动态协调策略,包括姿势采样和音频扩散,来增强半身细节、面部和手势表现力,同时减少条件冗余。

方法

EchoMimicV2 的整体流程。 EchoMimicV2 利用参考图像、音频片段和一系列手势来生成高质量的动画视频,确保音频内容和半身动作之间的连贯性。 为了弥补半身数据的稀缺,利用头部部分注意力将头像数据无缝地容纳到训练框架中,这些数据可以在推理过程中被省略。此外,还设计了阶段特定的去噪损失,分别来指导特定阶段动画的运动、细节和低级质量。此外还提出了一个用于评估半身人体动画效果的新基准。大量实验和分析表明,EchoMimicV2 在定量和定性评估方面均超越了现有方法。

效果展示

EchoMimicV2 在给定不同参考图像、手势和音频的情况下的结果。

EchoMimicV2 的结果与姿势驱动的半身人体动画基线进行了比较。

EchoMimicV2 的结果与音频驱动的半身人体动画基线进行了比较。

结论

论文提出了一种有效的 EchoMimicV2 框架来简化的条件下生成引人注目的半身人体动画。通过提出的 APDH 训练策略和时间步长特定的 PhD Loss 实现了音频姿势条件协作和姿势条件简化,同时通过 HPA 无缝增强了面部表情。综合实验表明,EchoMimicV2 在定量和定性结果方面都超过了目前最先进的技术。

### Echomimic V2 主模型概述 Echomimic 是由阿里巴巴推出的一个开源项目,旨在通过音频驱动技术使静态图像能够表现出生动的表情和动作[^3]。Echomimic V2 版本专注于简化并优化了半身人物形象的动画效果,在保持高质量输出的同时提高了推理效率。 #### 模型特点 - **高效性能**:采用加速模型设计,显著提升了基于音频生成视频的速度。 - **易于集成**:提供了 `src.pipelines.pipeline_echo_mimic` 中的 `Audio2VideoPipeline` 类来方便开发者快速上手使用该功能模块[^4]。 ```python from src.pipelines.pipeline_echo_mimic import Audio2VideoPipeline pipeline = Audio2VideoPipeline() ``` #### 获取文档与资源 对于希望深入了解或部署此项目的用户来说,官方已经准备好了详细的说明材料: - **项目主页** 和 **论文链接** 可供查阅最新研究进展和技术细节; - 关于如何安装配置以及运行实例的具体指导可以在 GitHub 仓库内的 README 文件找到; #### 数据预处理指南 在将图片送入模型之前,应当按照特定的要求对其进行必要的转换操作。这些步骤通常被封装在一个名为 preprocessing 的脚本内,并且可以通过查看 `train_image_classifier.py` 或者 `eval_image_classifier.py` 来了解具体的实现方式[^1]。 #### 默认姿态设定 当没有提供自定义的姿态文件时,默认情况下会加载随附的例子作为基础模板。这适用于 Windows 平台上的本地测试环境搭建过程[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值