2025 年最全的 29 个 TTS 文字生成语音工具大盘点

sagima_sdu

已于 2025-04-27 09:51:12 修改

阅读量1.7k

点赞数 25

文章标签：算法 linux c++

于 2025-04-16 14:57:32 首次发布

本文链接：https://blog.csdn.net/weixin_45498383/article/details/147277123

版权

一、工具详情介绍

TTS Maker：这是一款免费商用的工具，拥有多语言支持的强大功能，甚至可以生成方言，比如东北话和粤语等，音色也十分丰富。它支持中、英、日、法、韩等 50 多种语言，包括方言，非常适合用于短视频配音以及多语言有声内容的制作。不过其核心技术/模型未明确。
微软 Azure TTS：属于闭源工具，以高自然度合成和情感控制为亮点，并且支持 SSML。其核心技术是神经网络语音以及自定义神经语音，语言支持多达 140 多种，拥有 400 多种音色，在企业级应用、有声书制作以及虚拟助手等场景中表现出色。
PaddleSpeech：开源的 TTS 工具，专注于中文流式合成，具备低延迟的特点，核心技术采用了 FastSpeech2 + HiFiGAN，对中文进行了优化，适用于实时语音播报和智能客服等场景。
VoiceVox：同样是开源工具，专门针对日语语音合成，而且拥有二次元风格的音色，非常适合虚拟主播以及二次元内容创作，其核心技术是 VOICEVOX OSS。
TensorFlowTTS：开源的它支持多模型，如 Tacotron 2、FastSpeech2 等，核心技术包括 Tacotron2/FastSpeech2 + MelGAN，多语言支持使其在学术研究和模型定制开发方面很有优势。
ChatTTS：开源工具，对中英文对话进行了优化，还支持情感特征，比如笑声、停顿等。基于 4 万小时的预训练模型，适用于对话交互和有声内容生成，语言支持中、英两种语言。
Seed-TTS：未开源，具有语音内容编辑和说话速度控制的功能，由字节跳动自研模型支持，主要以中文为主，适用于语音编辑和有声书后期制作。
Fish Speech：开源工具，能够实现多语言混合生成，支持 VITS2/Bert-VITS2 等模型，语言支持中、英、日，适合多语言播客和影视配音。
GPT-SoVITS：开源工具，可以在 1 分钟内实现语音克隆，并且支持方言，核心技术是 SoVITS + GPT，主要用于虚拟人声和个性化语音克隆，语言支持中文（含方言）。
OpenVoice：开源的它能够进行声音克隆，对情感、口音、语调都可以进行精细控制，基于多风格控制模型，支持中、英、日、韩、法、西等语言，适用于广告配音和多语言虚拟助手。
Bark：开源工具不仅能生成语音，还能添加音效，如音乐、背景音等，采用 Transformer 架构，支持 100 多种语言，非常适合创意音频和游戏音效的制作。
Coqui TTS：开源工具，支持 1100 多种语言的预训练模型，核心技术是 XTTS，适用于低资源语言合成和全球化应用。
Real-Time-Voice-Cloning：开源工具，具有 GUI 交互式语音克隆功能，基于 SV2TTS 技术，支持多语言，适合非技术用户进行语音克隆。
F5-TTS：开源工具，实现了零样本声音克隆和情感控制，基于扩散变换器（DiT），多语言支持使其在个性化语音合成和情感化交互方面表现出色。
Edge-TTS：开源工具，通过对微软接口的封装实现多语言语音生成，基于微软 Edge 浏览器 TTS 接口，支持 40 多种语言，拥有 300 多种音色，适合轻量级应用和多语言基础合成。

二、TTS 相关地址汇总

TTS Maker：非开源服务，官方地址：https://ttsmaker.com/zh-cn
微软 Azure：非开源服务，官方地址：https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/
PaddleSpeech：开源地址：https://github.com/PaddlePaddle/PaddleSpeech
VoiceVox：开源地址：https://github.com/VOICEVOX/voicevox
TensorFlowTTS：开源地址：https://github.com/TensorSpeech/TensorFlowTTS
TTSKit：开源地址：https://github.com/kuangdd/ttskit
OpenTTS：开源地址：https://github.com/synesthesiam/opentts
eSpeak NG：开源地址：https://github.com/espeak-ng/espeak-ng
F5-TTS：开源地址：https://github.com/SWivid/F5-TTS ，HuggingFace 空间：https://huggingface.co/SWivid/F5-TTS
Edge-TTS：开源地址：https://github.com/rany2/edge-tts
ChatTTS：开源地址：https://github.com/2noise/ChatTTS
ChatTTS-ui：开源地址：https://github.com/jianchang512/ChatTTS-ui
Seed-TTS：技术报告地址：https://bytedancespeech.github.io/seedtts_tech_report/ ，论文地址：https://arxiv.org/pdf/2406.02430 ，评估工具地址：https://github.com/BytedanceSpeech/seed-tts-eval/ （注意：核心模型代码可能未完全开源）
Fish Speech：开源地址：https://github.com/fishaudio/fish-speech ，官方地址：https://fish.audio/zh-CN/
GPT-SoVITS：开源地址：https://github.com/RVC-Boss/GPTSoVITS
OpenVoice：开源地址：https://github.com/myshell-ai/OpenVoice ，论文地址：https://arxiv.org/pdf/2312.01479.pdf
Parler-TTS：开源地址：https://github.com/huggingface/parler-tts
FUNAudioLLM-CosyVoice：开源地址：https://github.com/FunAudioLLM/CosyVoice
VoiceCraft：开源地址：https://github.com/jasonppy/VoiceCraft
EmotiVoice：开源地址：https://github.com/netease-youdao/EmotiVoice
MetaVoice-1B：开源地址：https://github.com/metavoiceio/metavoice-src
Voice Engine：非开源服务，相关信息：https://ai-bot.cn/openai-voice-engine/ （注意：OpenAI 并未发布名为 Voice Engine 的官方服务或模型，可能是第三方实现或误解）
Bark：开源地址：https://github.com/suno-ai/bark
MaskGCT：开源地址（镜像）：https://hf-mirror.com/amphion/MaskGCT （注意：原始仓库可能位于其他平台，但此处提供了 HuggingFace 镜像）
Coqui TTS：开源地址：https://github.com/coqui-ai/tts ，HuggingFace 空间：https://huggingface.co/spaces/coqui/xtts ，文档：https://tts.readthedocs.io/en/dev/models/xtts.html
So-VITS-SVC：开源地址：https://github.com/svc-develop-team/so-vits-svc
Mocking Bird：开源地址：https://github.com/babysor/MockingBird ，Bilibili 视频（介绍）：https://www.bilibili.com/video/BV17Q4y1B7mY
Real-Time-Voice-Cloning：开源地址：https://github.com/CorentinJ/Real-Time-Voice-Cloning
voice-pro：开源地址（组织页面，包含多个项目）：https://github.com/abus-aikorea