【TTS学习笔记】：语音合成领域基本术语

最新推荐文章于 2025-05-13 20:33:05 发布

饭碗、碗碗香

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量313

点赞数 4

分类专栏：人工智能语音合成文章标签：学习笔记人工智能音频

本文链接：https://blog.csdn.net/weixin_44240478/article/details/147895774

版权

6 篇文章

订阅专栏

1 篇文章

订阅专栏

TTS (Text-to-Speech)
- 文本转语音，把输入的文字自动转换成语音的技术。
G2P (Grapheme-to-Phoneme)
- 把文字（字母/汉字）转换成对应的音素（发音单位），比如“Hello”转成 [h ə l oʊ]。
Phoneme（音素）
- 语言中最小的发音单位，TTS必须先知道要怎么发音才能合成语音。
Prosody（韵律）
- 包括重音、语调、节奏、停顿等，用来让合成语音听起来更自然。
Voice Cloning（声音克隆）
- 模拟特定人的声音进行语音合成，可以“复刻”某个说话人的音色。

Tacotron 2
- 经典的TTS模型，把文字直接转换成梅尔频谱图，再通过Vocoder生成音频。
FastSpeech
- 一种速度更快、效果不错的端到端TTS模型，通过非自回归方式提升合成效率。
VITS
- 当前非常流行的TTS模型，结合了语音合成和语音风格控制，效果自然且无需单独的Vocoder。
Vocoder
- 把模型输出的“频谱图”等中间特征转换成真正的声音波形。常见的有HiFi-GAN、WaveNet、Parallel WaveGAN。
Diffusion Models（扩散模型）
- 新一代生成式模型，通过逐步还原噪声生成高质量音频，提升自然度和清晰度。

Mel-Spectrogram（梅尔频谱图）
- 一种常用的音频特征图，把音频的能量分布按人类听觉感知的频率划分。TTS模型通常生成这种图，再交给Vocoder还原成语音。
Pitch（音高）
- 控制声音的高低，比如普通话的四声就是典型的音高变化。
Energy（能量）
- 反映语音的响亮程度，比如强调某个词时能量会更大。
Duration（时长）
- 每个音素的发音时长，直接影响语音节奏和流畅度。
Speaker Embedding（说话人嵌入）
- 一种用向量表示说话人特征的方法，可以控制合成的声音是谁的音色。