CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载

最新推荐文章于 2025-03-26 15:04:13 发布

昨日之日2006

最新推荐文章于 2025-03-26 15:04:13 发布

阅读量3k

点赞数 5

分类专栏： ai语音文章标签：人工智能音视频语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yihuaixu/article/details/140321420

版权

ai语音专栏收录该内容

16 篇文章

订阅专栏

近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice 和 CosyVoice。

今天分享的这个是v3ucn大佬优化过的升级版，新增自定义音色保存，优化长文本生成以及修复上个版本错误提示的bug。

一键包更新地址： CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载

CosyVoice专注自然语音生成，支持多语言、音色和情感控制，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。

仅需要3~10s的原始音频，CosyVoice即可生成模拟音色，甚至包括韵律、情感等细节，包括跨语种语音生成。

而且CosyVoice支持以富文本或自然语言的形式，对生成语音的情感、韵律进行细粒度的控制，生音频在情感表现力上得到明显提升。

研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct，可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高，具备更强的情感控制能力。

CosyVoice很好地建模了合成文本中的语义信息，达到了与人类发音人相当的水平。此外，通过对合成音频进行重打分，能够进一步降低识别的错误率，甚至在内容一致性和说话人相似度上超越人类。

0710优化版更新内容：

1、新增手动选择参考音频列表

将需要克隆的参考音频拷贝到软件根目录下的 “参考音频” 文件夹，并将文件名改名为音频说话内容，如下图

点击“刷新参考音频”即可。

2、自定义音色保存

克隆音色生成后，在下方输入音色名称，保存即可。如上图。

比如我们将克隆后的“大幂幂”的音色保存下来，这里输入大幂幂

保存后，点这里的“刷新新增音色”

即可在新增音色里找到我们刚才克隆的“大幂幂”的音色

后期需要使用这个音色生成音频，就直接在这里选择“大幂幂”即可。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。