SadTalker AI模型使用一张图片与一段音频便可以自动生成视频

最新推荐文章于 2024-04-30 10:47:13 发布

人工智能研究所

最新推荐文章于 2024-04-30 10:47:13 发布

阅读量1.9k

点赞数

分类专栏：人工智能之NLP自然语言处理文章标签： python 计算机视觉深度学习音视频人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44782294/article/details/131386693

版权

人工智能之NLP自然语言处理专栏收录该内容

36 篇文章 2 订阅 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型，我们自己给模型一张图片以及一段音频文件，模型会根据音频文件把传递的图片进行人脸的相应动作，比如张嘴，眨眼，移动头部等动作。
SadTalker，它从音频中生成 3DMM 的 3D 运动系数（头部姿势、表情），并隐式调制一种新颖的 3D 感知面部渲染，用于生成说话的头部运动视频。

为了学习真实的运动，SadTalker分别对音频和不同类型的运动系数之间的联系进行显式建模。准确地说，SadTalker提出 ExpNet模型，通过提取运动系数和3D渲染的面部运动来从音频中学习准确的面部表情。至于头部姿势，SadTalker通过PoseVAE 以合成不同风格的头部运动。
模型不仅支持英文，还支持中文，我们可以直接hugging face上面来体验

https://huggingface.co/spaces/vinthony/SadTalker

当然官方开源了源代码，我们可以直接在自己电脑上面来运行此模型

https://github.com/OpenTalker/SadTalker

当然我们要运行本程序，需要安装python3.8以上版本，并下载预训练模型ÿ

了解本专栏

超级会员免费看

人工智能研究所

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
SadTalker AI模型使用一张图片与一段音频便可以自动生成视频

SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型，我们自己给模型一张图片以及一段音频文件，模型会根据音频文件把传递的图片进行人脸的相应动作，比如张嘴，眨眼，移动头部等动作。然后就可以git sadtalker的工程目录，并安装相应的第三方库，这里主要是torch相关的库，这里为了合成音频的方便，我们同样可以安装TTS来进行音频的合成。模型不仅可以模仿人类说话，还可以进行唱歌。当然下载的预训练模型需要放置在checkpoints目录下，以上所有的操作完成后，我们就可以运行模型了。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能研究所 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。