EchoMimicV2 于12月16日发布了代码更新,那我也赶紧来学习一波。本次更新增加了"手势对齐"和"自定义姿态"相关逻辑。鉴于我之前的版本已经实现了自定义姿态部分,我将把新增的对齐逻辑整合进去。
EchoMimicV2上一个版本可以看这篇
https://blog.csdn.net/weixin_43935971/article/details/143998003?spm=1001.2014.3001.5502
关于对齐
关于姿态对齐这可能是上个版本大家都比较关心的问题之一。
上个版本必须使用官方提供的参考图一样尺寸,人物在画面中的比例也需要一致的。
如果上传了一张其他尺寸或比例的图像,则最后会生成一段非常“怪异抽象”视频,这是因为输入的图像和pose没有对齐。
特别是人物的手的部分,在图片过大的时候会“脱离”身体…
(抽象视频.mp4)
本次更新就是解决这个问题,现在再上传同样的照片
生成后的视频就是对齐姿态后的正常视频
(正常视频.mp4)
关于自定义姿态
上传一段姿态参考的视频,保持人物面朝正面,无遮挡,EchoMimicV2会提取该视频中的人物姿态数据。
如果你上传的音频长度大于参考视频的长度,那么最后生成的视频的动作就是循环的。
我也把测试时的视频素材放到了网盘里,大家可以参考下。
关于图片标准问题
因为模型训练时官方使用的是正面、半身的数据集,所以侧面、非半身的图像是不支持的。
下图是官方放出的不支持的类型参考。
关于视频清晰度问题
可以通过调节高级设置–引导系数来降低噪声。调整范围为1.5-3.0,CFG越低,视频质量越好,但是嘴型效果越差。CFG越高,视频质量越差,但是嘴型效果越好。
配置需求
WIN
N卡需12G显存以上。推荐16G显存。
MAC
带不动…建议使用云端镜像↓
https://www.xiangongyun.com/image/detail/cd3a36c1-68f7-4782-9d1b-6df917eba18e?r=2UKFZQ
上次版本说要出云端镜像,但是由于gradio的一个BUG导致镜像迟迟没有推出,这个BUG我也做了处理,不能保证百分百不会出现,使用镜像的时候建议看下镜像主页的说明。
此BUG只会出现在云端,本地整合包版本没有问题。
整合包获取
👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻
夸夸夸盘:
https://pan.quark.cn/s/f35502850992
度度度盘:
https://pan.baidu.com/s/1eMtFm3Ir6hO5tWrHP_cjmA?pwd=uek4
制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!