Kokoro-82M TTS模型
一、模型概述
Kokoro是一个拥有8200万参数的开源权重文本转语音(TTS)模型。尽管其架构轻量,但能够提供与大型模型相当的语音质量,同时在速度和成本效率方面具有显著优势。该模型采用Apache许可证,可以在生产环境和个人项目中自由部署。
Kokoro模型由hexgrad团队开发,其GitHub仓库地址为:https://github.com/hexgrad/kokoro,演示地址为:https://hf.co/spaces/hexgrad/Kokoro-TTS。
二、性能与成本优势
截至2025年4月,Kokoro通过API服务的市场价格低于每百万字符1美元,或每小时音频输出低于0.06美元(平均每1000字符输入约为1分钟输出)。具体价格信息显示,ArtificialAnalysis/Replicate平台价格为每百万字符65美分,DeepInfra平台价格为每百万字符80美分。
Kokoro模型在性能和成本方面的优势使其在多个项目和商业API中得到广泛应用。开发者欢迎将其部署在实际应用场景中。
三、模型版本与训练细节
Kokoro模型目前有两个主要版本:
版本v1.0(2025年1月27日发布)
-
训练数据:几百小时音频
-
语言和声音:8种语言和54种声音
-
SHA256哈希值:496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4
-
训练成本:在A100 80GB GPU上训练500小时,平均小时费率1.20美元,总训练成本600美元
版本v0.19(2024年12月25日发布)
-
训练数据:不到100小时音频
-
语言和声音:1种语言和10种声音
-
SHA256哈希值:3b0c392f
-
训练成本:在A100 80GB GPU上训练500小时,平均小时费率0.80美元,总训练成本400美元
总训练成本(两个版本):在A100 80GB GPU上训练1000小时,平均小时费率1.00美元,总训练成本1000美元。
四、模型架构与使用方法
Kokoro模型基于StyleTTS 2架构(https://arxiv.org/abs/2306.07691)和ISTFTNet架构(https://arxiv.org/abs/2203.02395),采用仅解码器的设计,不使用扩散模型和编码器发布。
模型使用misaki G2P库(https://github.com/hexgrad/misaki)进行文本处理。
使用示例代码如下:
!pip install -q kokoro>=0.9.2 soundfile
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
pipeline = KPipeline(lang_code='a')
text = '''[Kokoro](/kˈOkəɹO/) is an open-weight TTS model with 82 million parameters. Despite its l'''
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
print(i, gs, ps)
display(Audio(data=audio, rate=24000, autoplay=i==0))
sf.write(f'{i}.wav', audio, 24000)
五、数据集与训练数据
Kokoro模型的训练数据 exclusively 使用许可的/非版权音频数据和IPA音素标签。这些数据包括:
-
公共领域音频
-
采用Apache、MIT等许可的音频
-
由大型提供商的封闭TTS模型生成的合成音频
训练数据集大小为几百小时音频,总训练成本约为1000美元(1000小时A100 80GB显存)。
部分训练数据集详情:
音频数据 | 时长 | 许可证 | 添加到训练集的时间 |
---|---|---|---|
Koniwa tnc | <1小时 | CC BY 3.0 | v0.19 / 2024年11月22日 |
SIWIS | <11小时 | CC BY 4.0 | v0.19 / 2024年11月22日 |
六、开源许可与注意事项
Kokoro模型采用Apache许可证,可在各种环境中自由部署。但需要注意,任何在根域名中包含“kokoro”的网站(例如kokorottsai_com、kokorotts_net)均不属于该模型页面或其作者,并且可能为欺诈网站。