数字人的未来：数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS

风信子的猫Redamancy

已于 2024-02-25 17:21:15 修改

阅读量2.6k

点赞数 21

分类专栏： 👁️计算机视觉CV 文章标签： gpt 数字人语音驱动深度学习人工智能

于 2024-02-25 17:21:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45508265/article/details/136284743

版权

文章介绍了Linly-Talker对话系统的新功能，包括与GeminiPro和Qwen大模型集成，支持图片上传、多轮对话、WebUI更新和语音克隆技术（GPT-SoVITS），提升了数字人的真实感和交互性。作者还提到其他开源项目如OpenVoice和XTTS的比较，强调GPT-SoVITS在语音克隆方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🚀数字人的未来：数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS

https://github.com/Kedreamix/Linly-Talker

2023.12 更新 📆

用户可以上传任意图片进行对话

2024.01 更新 📆

令人兴奋的消息！我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片，为我们的互动增添了全新的层面。
更新了FastAPI的部署调用方法。
更新了微软TTS的高级设置选项，增加声音种类的多样性，以及加入视频字幕加强可视化。
- 更新了GPT多轮对话系统，使得对话有上下文联系，提高数字人的交互性和真实感。

2024.02 更新 📆

更新了Gradio的版本为最新版本4.16.0，使得界面拥有更多的功能，比如可以摄像头拍摄图片构建数字人等。
更新了ASR和THG，其中ASR加入了阿里的FunASR，具体更快的速度；THG部分加入了Wav2Lip模型，ER-NeRF在准备中(Comming Soon)。
加入了语音克隆方法GPT-SoVITS模型，能够通过微调一分钟对应人的语料进行克隆，效果还是相当不错的，值得推荐。
集成一个WebUI界面，能够更好的运行Linly-Talker。

在最近一段时间，我在尝试探索，如何克隆声音，因为在数字人对话系统中，虽然可能能够重建特定的人，但是还是存在一个问题：声音是用固定的人声生成的，导致没有真实性，如果我们能够去克隆出对应的声音，并且结合特定的数字人，那是否就完成了一个数字人的完整复刻。

于是我就研究了一段时间，后面发现了两个非常有意思的项目，分别是GPT-SoVITS和XTTS两个开源项目，我认为这两个算是现在最好的两个开源项目了，像OpenVoice之类的效果还是比较差，火山效果不错，但是没有开源。

除此之外，我后续集成到了Linly-Talker之中，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

风信子的猫Redamancy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。