解锁免费文本转语音：打造个性化音色【好用推荐】

AI技术库

已于 2024-11-24 21:41:35 修改

阅读量1k

点赞数 18

分类专栏：好用工具文章标签： windows实用工具文本转语音

于 2024-11-24 21:33:21 首次发布

本文链接：https://blog.csdn.net/weixin_45037357/article/details/144014118

版权

为什么要写这篇文章

因为要制作视频，就想要根据文本，生成不同音色的声音，发现很多都是收费的。

因此，找到了这款工具。经过博主在电脑上捣鼓【网速如果好，可能会更快一些】，终于跑通了。把踩过的坑和使用方法记录了下来，大家有需要的，自行照做，就可以得到任何自己想要的文本声音。

前提说明

硬件：有一台电脑【笔记本也行】，需要有显卡

软件：安装了python和conda环境【这个步骤比较简单，不懂可以评论或者私信】

F5-TTS

我们使用的技术是：F5-TTS。它的全称是 "Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching"，翻译成中文是“流匹配下的流畅忠实语音仿真专家”。据介绍，搭载 ConvNeXt V2 的扩散变换器，训练和推理速度更快。

环境安装

Create env

# Create a python 3.10 conda env (you could also use virtualenv)
conda create -n f5-tts python=3.10
conda activate f5-tts

Install pytorch

# Install pytorch with your CUDA version, e.g.
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

2选1

作为 pip 包（如果仅用于推理）

pip install git+https://github.com/SWivid/F5-TTS.git

本地可编辑（如果也进行训练，微调）

git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
# git submodule update --init --recursive  # (optional, if need bigvgan)
pip install -e .

# If initialize submodule, you should add the following code at the beginning of src/third_party/BigVGAN/bigvgan.py.
import os
import sys
sys.pa