目录
为什么要写这篇文章
因为要制作视频,就想要根据文本,生成不同音色的声音,发现很多都是收费的。
因此,找到了这款工具。经过博主在电脑上捣鼓【网速如果好,可能会更快一些】,终于跑通了。把踩过的坑和使用方法记录了下来,大家有需要的,自行照做,就可以得到任何自己想要的文本声音。
前提说明
硬件:有一台电脑【笔记本也行】,需要有显卡
软件:安装了python和conda环境【这个步骤比较简单,不懂可以评论或者私信】
F5-TTS
我们使用的技术是:F5-TTS。它的全称是 "Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching",翻译成中文是“流匹配下的流畅忠实语音仿真专家”。据介绍,搭载 ConvNeXt V2 的扩散变换器,训练和推理速度更快。
环境安装
Create env
# Create a python 3.10 conda env (you could also use virtualenv)
conda create -n f5-tts python=3.10
conda activate f5-tts
Install pytorch
# Install pytorch with your CUDA version, e.g.
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
2选1
- 作为 pip 包(如果仅用于推理)
pip install git+https://github.com/SWivid/F5-TTS.git
- 本地可编辑(如果也进行训练,微调)
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
# git submodule update --init --recursive # (optional, if need bigvgan)
pip install -e .
# If initialize submodule, you should add the following code at the beginning of src/third_party/BigVGAN/bigvgan.py.
import os
import sys
sys.pa