Memo 是由南洋理工大学和新加坡国立大学主导开发的一种最先进的开放式模型,用于音频驱动的通话视频生成。这是一种端到端的音频驱动肖像动画方法,旨在生成具有身份一致性和富有表现力的口型动画视频。
Memo 在各类图像和音频类型上生成更为逼真的口型动画视频,并在总体质量、音频-口型同步、身份一致性和表情-情感对齐方面优于现有的最先进方法。
项目特色:
Memo 可以用肖像、雕塑、数字艺术和动画等图像生成会说话的视频;
Memo 可以生成有声音的视频,音频类型包括演讲、唱歌、说唱;
Memo 支持英语、普通话、西班牙语、日语、韩语和粤语等多种语言;
Memo 可以生成富有表现力的谈话视频或抵消视频中的情绪;
Memo 可以生成具有各种头部姿势的谈话视频;
Memo 可以生成长时间的谈话视频,且伪影和错误累积较少。
使用教程:(当前版本对显卡要求较高,建议N卡,显存12G起,12G显存需开启内存回退)
上传一张照片加一段驱动音频即可生成。
下载地址:评论区回复需要,私信发给你