开源可用的多语言文本转语音模型:Kokoro-82M TTS

Kokoro-82M TTS模型

一、模型概述

Kokoro是一个拥有8200万参数的开源权重文本转语音(TTS)模型。尽管其架构轻量,但能够提供与大型模型相当的语音质量,同时在速度和成本效率方面具有显著优势。该模型采用Apache许可证,可以在生产环境和个人项目中自由部署。

Kokoro模型由hexgrad团队开发,其GitHub仓库地址为:https://github.com/hexgrad/kokoro,演示地址为:https://hf.co/spaces/hexgrad/Kokoro-TTS。

二、性能与成本优势

截至2025年4月,Kokoro通过API服务的市场价格低于每百万字符1美元,或每小时音频输出低于0.06美元(平均每1000字符输入约为1分钟输出)。具体价格信息显示,ArtificialAnalysis/Replicate平台价格为每百万字符65美分,DeepInfra平台价格为每百万字符80美分。

Kokoro模型在性能和成本方面的优势使其在多个项目和商业API中得到广泛应用。开发者欢迎将其部署在实际应用场景中。

三、模型版本与训练细节

Kokoro模型目前有两个主要版本:

版本v1.0(2025年1月27日发布)

  • 训练数据:几百小时音频

  • 语言和声音:8种语言和54种声音

  • SHA256哈希值:496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4

  • 训练成本:在A100 80GB GPU上训练500小时,平均小时费率1.20美元,总训练成本600美元

版本v0.19(2024年12月25日发布)

  • 训练数据:不到100小时音频

  • 语言和声音:1种语言和10种声音

  • SHA256哈希值:3b0c392f

  • 训练成本:在A100 80GB GPU上训练500小时,平均小时费率0.80美元,总训练成本400美元

总训练成本(两个版本):在A100 80GB GPU上训练1000小时,平均小时费率1.00美元,总训练成本1000美元。

四、模型架构与使用方法

Kokoro模型基于StyleTTS 2架构(https://arxiv.org/abs/2306.07691)和ISTFTNet架构(https://arxiv.org/abs/2203.02395),采用仅解码器的设计,不使用扩散模型和编码器发布。

模型使用misaki G2P库(https://github.com/hexgrad/misaki)进行文本处理。

使用示例代码如下:

!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1

from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch

pipeline = KPipeline(lang_code='a')
text = '''[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its l'''

generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
    print(i, gs, ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

五、数据集与训练数据

Kokoro模型的训练数据 exclusively 使用许可的/非版权音频数据和IPA音素标签。这些数据包括:

  • 公共领域音频

  • 采用Apache、MIT等许可的音频

  • 由大型提供商的封闭TTS模型生成的合成音频

训练数据集大小为几百小时音频,总训练成本约为1000美元(1000小时A100 80GB显存)。

部分训练数据集详情:

音频数据时长许可证添加到训练集的时间
Koniwa tnc<1小时CC BY 3.0v0.19 / 2024年11月22日
SIWIS<11小时CC BY 4.0v0.19 / 2024年11月22日

六、开源许可与注意事项

Kokoro模型采用Apache许可证,可在各种环境中自由部署。但需要注意,任何在根域名中包含“kokoro”的网站(例如kokorottsai_com、kokorotts_net)均不属于该模型页面或其作者,并且可能为欺诈网站。

七、核心技术汇总

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值