一、工具详情介绍
- TTS Maker:这是一款免费商用的工具,拥有多语言支持的强大功能,甚至可以生成方言,比如东北话和粤语等,音色也十分丰富。它支持中、英、日、法、韩等 50 多种语言,包括方言,非常适合用于短视频配音以及多语言有声内容的制作。不过其核心技术/模型未明确。
- 微软 Azure TTS:属于闭源工具,以高自然度合成和情感控制为亮点,并且支持 SSML。其核心技术是神经网络语音以及自定义神经语音,语言支持多达 140 多种,拥有 400 多种音色,在企业级应用、有声书制作以及虚拟助手等场景中表现出色。
- PaddleSpeech:开源的 TTS 工具,专注于中文流式合成,具备低延迟的特点,核心技术采用了 FastSpeech2 + HiFiGAN,对中文进行了优化,适用于实时语音播报和智能客服等场景。
- VoiceVox:同样是开源工具,专门针对日语语音合成,而且拥有二次元风格的音色,非常适合虚拟主播以及二次元内容创作,其核心技术是 VOICEVOX OSS。
- TensorFlowTTS:开源的它支持多模型,如 Tacotron 2、FastSpeech2 等,核心技术包括 Tacotron2/FastSpeech2 + MelGAN,多语言支持使其在学术研究和模型定制开发方面很有优势。
- ChatTTS:开源工具,对中英文对话进行了优化,还支持情感特征,比如笑声、停顿等。基于 4 万小时的预训练模型,适用于对话交互和有声内容生成,语言支持中、英两种语言。
- Seed-TTS:未开源,具有语音内容编辑和说话速度控制的功能,由字节跳动自研模型支持,主要以中文为主,适用于语音编辑和有声书后期制作。
- Fish Speech:开源工具,能够实现多语言混合生成,支持 VITS2/Bert-VITS2 等模型,语言支持中、英、日,适合多语言播客和影视配音。
- GPT-SoVITS:开源工具,可以在 1 分钟内实现语音克隆,并且支持方言,核心技术是 SoVITS + GPT,主要用于虚拟人声和个性化语音克隆,语言支持中文(含方言)。
- OpenVoice:开源的它能够进行声音克隆,对情感、口音、语调都可以进行精细控制,基于多风格控制模型,支持中、英、日、韩、法、西等语言,适用于广告配音和多语言虚拟助手。
- Bark:开源工具不仅能生成语音,还能添加音效,如音乐、背景音等,采用 Transformer 架构,支持 100 多种语言,非常适合创意音频和游戏音效的制作。
- Coqui TTS:开源工具,支持 1100 多种语言的预训练模型,核心技术是 XTTS,适用于低资源语言合成和全球化应用。
- Real-Time-Voice-Cloning:开源工具,具有 GUI 交互式语音克隆功能,基于 SV2TTS 技术,支持多语言,适合非技术用户进行语音克隆。
- F5-TTS:开源工具,实现了零样本声音克隆和情感控制,基于扩散变换器(DiT),多语言支持使其在个性化语音合成和情感化交互方面表现出色。
- Edge-TTS:开源工具,通过对微软接口的封装实现多语言语音生成,基于微软 Edge 浏览器 TTS 接口,支持 40 多种语言,拥有 300 多种音色,适合轻量级应用和多语言基础合成。
二、TTS 相关地址汇总
- TTS Maker:非开源服务,官方地址:https://ttsmaker.com/zh-cn
- 微软 Azure:非开源服务,官方地址:https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/
- PaddleSpeech:开源地址:https://github.com/PaddlePaddle/PaddleSpeech
- VoiceVox:开源地址:https://github.com/VOICEVOX/voicevox
- TensorFlowTTS:开源地址:https://github.com/TensorSpeech/TensorFlowTTS
- TTSKit:开源地址:https://github.com/kuangdd/ttskit
- OpenTTS:开源地址:https://github.com/synesthesiam/opentts
- eSpeak NG:开源地址:https://github.com/espeak-ng/espeak-ng
- F5-TTS:开源地址:https://github.com/SWivid/F5-TTS ,HuggingFace 空间:https://huggingface.co/SWivid/F5-TTS
- Edge-TTS:开源地址:https://github.com/rany2/edge-tts
- ChatTTS:开源地址:https://github.com/2noise/ChatTTS
- ChatTTS-ui:开源地址:https://github.com/jianchang512/ChatTTS-ui
- Seed-TTS:技术报告地址:https://bytedancespeech.github.io/seedtts_tech_report/ ,论文地址:https://arxiv.org/pdf/2406.02430 ,评估工具地址:https://github.com/BytedanceSpeech/seed-tts-eval/ (注意:核心模型代码可能未完全开源)
- Fish Speech:开源地址:https://github.com/fishaudio/fish-speech ,官方地址:https://fish.audio/zh-CN/
- GPT-SoVITS:开源地址:https://github.com/RVC-Boss/GPTSoVITS
- OpenVoice:开源地址:https://github.com/myshell-ai/OpenVoice ,论文地址:https://arxiv.org/pdf/2312.01479.pdf
- Parler-TTS:开源地址:https://github.com/huggingface/parler-tts
- FUNAudioLLM-CosyVoice:开源地址:https://github.com/FunAudioLLM/CosyVoice
- VoiceCraft:开源地址:https://github.com/jasonppy/VoiceCraft
- EmotiVoice:开源地址:https://github.com/netease-youdao/EmotiVoice
- MetaVoice-1B:开源地址:https://github.com/metavoiceio/metavoice-src
- Voice Engine:非开源服务,相关信息:https://ai-bot.cn/openai-voice-engine/ (注意:OpenAI 并未发布名为 Voice Engine 的官方服务或模型,可能是第三方实现或误解)
- Bark:开源地址:https://github.com/suno-ai/bark
- MaskGCT:开源地址(镜像):https://hf-mirror.com/amphion/MaskGCT (注意:原始仓库可能位于其他平台,但此处提供了 HuggingFace 镜像)
- Coqui TTS:开源地址:https://github.com/coqui-ai/tts ,HuggingFace 空间:https://huggingface.co/spaces/coqui/xtts ,文档:https://tts.readthedocs.io/en/dev/models/xtts.html
- So-VITS-SVC:开源地址:https://github.com/svc-develop-team/so-vits-svc
- Mocking Bird:开源地址:https://github.com/babysor/MockingBird ,Bilibili 视频(介绍):https://www.bilibili.com/video/BV17Q4y1B7mY
- Real-Time-Voice-Cloning:开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
- voice-pro:开源地址(组织页面,包含多个项目):https://github.com/abus-aikorea