TTS语音合成综述

训练基本的语音合成模型

基于Tacotron汉语语音合成的开源实践(整个训练的流程)

端到端的TTS深度学习模型tacotron(中文语音合成)(对网络结构描述较好)

Neural Speech Synthesis with Transformer Network

开源代码

百度deepvoice3

Speaker adaptation
If you have very limited data, then you can
consider to try fine-turn pre-trained model. For example, using
pre-trained model on LJSpeech, you can adapt it to data from VCTK
speaker p225 (30 mins) by the following command From my experience, it
can get reasonable speech quality very quickly rather than training
the model from scratch.

speedyspeech
FastSpeech Fast, Robust and ControllableText to Speech, 源码

开源的工具箱,集成了tacotron2,transformerv3,fastspeechv3等先进模型
ESPNET-TTS: UNIFIED, REPRODUCIBLE, AND INTEGRATABLE OPEN SOURCE END-TO-END TEXT-TO-SPEECH TOOLKIT

人声的迁移

语音克隆(Voice-Cloning):

所谓voice clone就是,在拿到一个新的没见过speaker的语音之后,只要用户少量的句子(甚至一句), 就可以合成语音来。voice clone包含我们通常用到的adapt和本文新提出的speaker encoding。
最最传统的方式,就是把这些数据加进去微调得到新模型,这也就是clone了。

5秒克隆语音,我也能用周杰伦的声音唱歌了
论文:Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
github源码

语音转换(voice conversion)

语音转换技术综述
语音转换(voice conversion)是这样一个任务:输入一条语音,在保持说话内容不变的情况下,让它听起来像是另一个人说的。一个典型的用例,就是柯南的蝴蝶领结变声器。

语音转换的一般流程分为三步:1. 提取特征;2. 转换特征;3. 重新合成语音。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
TTS即文本语音合成(Text-to-Speech),是一种将计算机生成的文本转换为自然语音的技术。而Python语言是一种非常流行的编程语言,因其易学易用的特点,被广泛应用于各种领域。 在Python中,我们可以使用第三方库来实现TTS功能。其中,最常用的库是pyttsx3。使用pyttsx3库,我们可以加载指定的语音引擎,并设置其属性,如语速、语调等。接下来,我们可以调用其say()方法,并传入文本内容,即可实现语音合成。 使用pyttsx3库进行TTS语音合成功能的实现,我们需要先安装该库。可以通过以下命令在终端中进行安装: ``` pip install pyttsx3 ``` 安装完成后,我们可以编写Python代码来实现TTS语音合成功能。例如,下面是一个简单的示例: ```python import pyttsx3 def text_to_speech(text): engine = pyttsx3.init() engine.say(text) engine.runAndWait() if __name__ == '__main__': text_to_speech('欢迎使用TTS语音合成!') ``` 在上述示例中,我们导入了pyttsx3库,并定义了一个text_to_speech()函数用于接收文本内容并进行语音合成。在main函数中,我们调用text_to_speech()函数,并传入欢迎语句进行合成。 当我们运行上述代码时,语音合成引擎会将输入的文本内容转换成自然语音,并播放出来。同时,我们还可以通过使用更多的参数和方法,对语音引擎的属性进行设定,以实现更加个性化的语音合成效果。 总之,Python的TTS语音合成功能可以通过pyttsx3库来实现,为我们提供了便捷的文本转语音的方式,可以应用于语音导航、语音交互等各种场景中。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值