MuseTalk - 一键创建高质量数字人（对口型）一键整合包，大厂腾讯出品

昨日之日2006

已于 2024-04-16 17:53:48 修改

阅读量4.8k

点赞数 10

分类专栏： ai合成文章标签：深度学习

于 2024-04-16 17:52:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yihuaixu/article/details/137834210

版权

ai合成专栏收录该内容

39 篇文章

订阅专栏

腾讯开发的MuseTalk是一款实时音频驱动的唇部同步模型，能根据音频自动生成高度同步的面部动画。它支持多种语言，实现在V100显卡上的高速推理，并可用于视频配音、虚拟人生成、教育和娱乐等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

温馨提示：建议N卡，显存12G起使用

MuseTalk 是由腾讯团队开发的先进技术，项目地址：https://github.com/TMElyralab/MuseTalk，它是一个实时的音频驱动唇部同步模型。该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。这样，观众就能看到数字人物口型与声音完美匹配的效果。MuseTalk 特别适用于256 x 256像素的面部区域，且支持中文、英文和日文等多种语言输入。在NVIDIA Tesla V100显卡上，MuseTalk 能够实现超过每秒30帧的实时推理速度。此外，用户还可以通过调整面部区域的中心点，进一步优化生成效果。

MuseTalk 可应用于多种场景，包括但不限于：

视频配音与唇同步：制作配音视频时，MuseTalk 能够根据音频调整人物的口型，从而提升视频的真实感和观看体验。
虚拟人视频生成：作为一整套虚拟人解决方案的一部分，MuseTalk 可以和 MuseV（视频生成模型）配合使用，创造出高度逼真的虚拟人演讲或表演视频。
视频制作与编辑：在视频制作和编辑中，当需要更改角色台词或语言而不愿重新拍摄时，MuseTalk 提供了一个高效的解决方案。
教育和培训：在教育领域，MuseTalk 可以用于制作语言教学视频，帮助学习者更准确地学习语言发音和口型。
娱乐与社交媒体：内容创作者可以利用 MuseTalk 为照片或绘画作品添加口型动画，创造有趣的视频内容分享至社交媒体，为粉丝提供新颖的互动体验。

一键包下载地址：

MuseTalk一键包下载地址https://deepface.cc/thread-151-1-1.html

使用方法：

下载一键包，解压出来（建议解压到非中文路径下）

如上图，点击“一键启动MuseTalk”

当黑色窗口出现下图“Running on local URL: http://127.0.0.1:7860” 字样，复制http://127.0.0.1:7860到浏览器打开

如下图

成功打开后会自动跳转到软件WebUI界面，如下图：

软件主要包含三大块：

素材上传（上传驱动音频和参考视频素材）

参数调整（bbox参数，可以使用bbox_shift参数，控制嘴巴的张开幅度，正值，即向下半部分移动，这时会增加嘴巴张开度；负值即向上半部分移动，这时会降低嘴巴张开度。具体可以根据自己的实际情况调整）

生成预览（生成后的视频预览）

具体操作如下：

1、点击“驱动音频”，上传需要驱动的语音文件

2、点击“参考视频”，上传需要转换的视频文件

3、BBox参数我们先默认

4、点“生成”，等待即可

此时，黑色命令窗口会显示具体的处理进度，如下图

同时，程序会给出当前素材的BBox参考值，如下图红色框选所示

如果后期合成效果不好，可以根据这个推荐值范围做响应调整。

合成结束后，黑色命令行会提示保存路径，并在右侧预览区域显示预览效果，如下图

可以点击右侧的预览查看，也可以打开保存路径 results\output 下找到视频查看效果

最后看下最终合成效果，总体上，比以前的几款(SadTalker和Wav2Lip)要好很多，不亏是大厂出品。

动图封面

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。