一键音频驱动图片数字人项目——EchoMimic(附整合包)

原创已于 2024-07-24 10:48:22 修改 · 7.6k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#音视频 #AIGC #python #人工智能 #数字人

于 2024-07-24 07:56:12 首次发布

AI 专栏收录该内容

45 篇文章

订阅专栏

大家好，今天要给大家带来一个数字人相关项目——EchoMimic。该项目是由蚂蚁集团支付宝终端技术部出品，只需要一段音频和一个参考图片，EchoMimic就能让图片中的人物“活”起来。

我已制作好一键启动整合包和云端一键部署镜像方便大家快速上手体验！

效果展示

EchoMimic支持中文、英文音频驱动。

中文测试的效果

英文测试的效果

使用方法

1. 解压压缩包：注意路径避免使用中文等特殊符号。推荐使用第三方解压软件如Bandizip，以确保正确解压。

2.打开启动器：耐心等待片刻，系统将自动跳转到网页界面。

上传一张参考图像，注意人物面部清晰，尽量不要有遮挡。

输入参考音频。

一般到这里就可以直接点击生成啦。

追求细节和完美可以继续调整更多参数。

调整配置参数：如宽度、高度、长度、种子参数等。

如果你发现生成的面部有些偏移，可以调节“⾯部掩膜膨胀⽐例”、“⾯部裁剪膨胀⽐例”这两个参数使之更自然流畅：

帧率选择：默认为24帧视频，可以根据自己电脑配置选择更高帧率

设备默认使用的是cuda(显卡)。可以尝试cpu(会非常慢.....)

配置要求

WIN

Windwos10/11操作系统
8G显存以上的英伟达显卡
如果出现cuda错误，建议安装cuda11.8或以上版本

MAC

该项目非常依赖GPU的算力，暂不支持本地离线版本。

可访问云端镜像

https://www.xiangongyun.com/image/detail/0597d2b7-4f15-47f3-b49e-1f5f7260f14c?r=2UKFZQ

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注文章下方我们的公众号,发送【EchoMimic】关键字获取整合包。

如果发了关键词没回复你！记得看下复制的时候是不是把空格给粘贴进去了！

注意关键字大小写

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。