EchoMimicV2数字人1216更新,新增手势对齐,自定义姿态

最新推荐文章于 2025-05-01 17:35:42 发布

嘟嘟实验室

最新推荐文章于 2025-05-01 17:35:42 发布

阅读量701

点赞数 4

分类专栏： AI 文章标签： python 人工智能 AIGC 数字人音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43935971/article/details/144562880

版权

AI 专栏收录该内容

47 篇文章

订阅专栏

在这里插入图片描述

EchoMimicV2 于12月16日发布了代码更新，那我也赶紧来学习一波。本次更新增加了"手势对齐"和"自定义姿态"相关逻辑。鉴于我之前的版本已经实现了自定义姿态部分，我将把新增的对齐逻辑整合进去。

EchoMimicV2上一个版本可以看这篇

https://blog.csdn.net/weixin_43935971/article/details/143998003?spm=1001.2014.3001.5502

关于对齐

关于姿态对齐这可能是上个版本大家都比较关心的问题之一。

上个版本必须使用官方提供的参考图一样尺寸，人物在画面中的比例也需要一致的。

如果上传了一张其他尺寸或比例的图像，则最后会生成一段非常“怪异抽象”视频，这是因为输入的图像和pose没有对齐。

特别是人物的手的部分，在图片过大的时候会“脱离”身体…

(抽象视频.mp4)

本次更新就是解决这个问题，现在再上传同样的照片

生成后的视频就是对齐姿态后的正常视频

(正常视频.mp4)

关于自定义姿态

上传一段姿态参考的视频，保持人物面朝正面，无遮挡，EchoMimicV2会提取该视频中的人物姿态数据。

如果你上传的音频长度大于参考视频的长度，那么最后生成的视频的动作就是循环的。

我也把测试时的视频素材放到了网盘里，大家可以参考下。

关于图片标准问题

因为模型训练时官方使用的是正面、半身的数据集，所以侧面、非半身的图像是不支持的。

下图是官方放出的不支持的类型参考。

关于视频清晰度问题

可以通过调节高级设置–引导系数来降低噪声。调整范围为1.5-3.0，CFG越低，视频质量越好，但是嘴型效果越差。CFG越高，视频质量越差，但是嘴型效果越好。

配置需求

WIN

N卡需12G显存以上。推荐16G显存。

MAC

带不动…建议使用云端镜像↓

https://www.xiangongyun.com/image/detail/cd3a36c1-68f7-4782-9d1b-6df917eba18e?r=2UKFZQ

上次版本说要出云端镜像，但是由于gradio的一个BUG导致镜像迟迟没有推出，这个BUG我也做了处理，不能保证百分百不会出现，使用镜像的时候建议看下镜像主页的说明。

此BUG只会出现在云端，本地整合包版本没有问题。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘：
https://pan.quark.cn/s/f35502850992

度度度盘:
https://pan.baidu.com/s/1eMtFm3Ir6hO5tWrHP_cjmA?pwd=uek4

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。