TTS
文章平均质量分 90
文字转语音相关
夏天|여름이다
人工智能研究员,致力于计算机视觉,自然语言处理,语音处理,多模态模型,强化学习等相关研究。
展开
-
TTS | NaturalSpeech语音合成论文详解及项目实现【正在更新中】
本文主要是 讲解了NaturalSpeech论文及项目~原创 2024-01-02 16:07:44 · 1828 阅读 · 1 评论 -
TTS | 2019~2023年最新增强/生成情绪的语音合成调研(20231211更新版)
本博客主要是增强/生成情绪的语音合成调研,论文按照时间顺序排列,原创 2023-12-11 14:16:32 · 2560 阅读 · 0 评论 -
TTS | emotional-vits情绪语音合成的实现
本文主要介绍了情绪语音合成项目训练自己的数据集的实现过程~原创 2023-12-10 15:46:00 · 1600 阅读 · 1 评论 -
TTS | NaturalSpeech2语音合成论文详解及项目实现
本文主要讲解了微软在2023年4月发表的NaturalSpeech2语音合成论文及项目相关~原创 2023-12-08 09:58:47 · 2058 阅读 · 1 评论 -
MTTS | 多语言多人的VITS语音合成项目实现
本文主要是 讲解了PolyLangVITS的论文及项目实现~原创 2023-12-06 09:38:28 · 1848 阅读 · 2 评论 -
TTS | 一文总览语音合成系列基础知识及简要介绍
Text-to-Speech(通常缩写为TTS)是指一种将文本读成音频的技术。换句话说,它指的是一种模型,在该模型中,当文本或类似于字符的东西作为输入时,会生成波形音频作为输出。但实际上,这个 TTS 的音频质量在最近几年有了很大的提高。现在不那么尴尬了。整体内容结构遵循[Tan21],并添加了迄今为止(2022年8月)发表的最新论文。1.历史第一台“会说话的机器”可能是在 18 世纪后期制造的(据说是一位匈牙利科学家发明的)。计算机辅助创作起源于20世纪中叶,各种技术已经使用了大约50年。原创 2023-10-25 12:23:05 · 5129 阅读 · 2 评论 -
Speech | 语音中的风格迁移论文,总结及核心代码详解[20240103更新版]
1.样式标记:端到端语音合成中的无监督样式建模、控制和传输摘要在这项工作中,我们提出了“全局风格代币”(GST),这是一个在Tacotron(最先进的端到端语音合成系统)中联合训练的嵌入库。嵌入在没有明确标签的情况下进行训练,但学会了对大范围的声学表现力进行建模。商品及服务税会带来一系列丰富的重要结果。它们生成的软可解释“标签”可用于以新颖的方式控制合成,例如改变速度和说话风格 - 独立于文本内容。它们还可用于风格转换,在整个长格式文本语料库中复制单个音频剪辑的说话风格。原创 2023-10-23 18:20:39 · 1332 阅读 · 0 评论 -
TTS | 语音合成模型实验结果经验总结
本文主要是语音合成模型实验结果经验总结!!首先列出实验过的所有模型Tacotron&Tacotron2Bark(E2E)VITS/VITS2E2EMB-iSTFT-VITSE2E)原创 2023-10-18 15:08:07 · 764 阅读 · 1 评论 -
TTS | 轻量级VITS2的项目实现以及API设置
目前项目还未来得及发表论文,且项目还在完善中(截止到2023.10.18)。原创 2023-10-24 08:17:18 · 2396 阅读 · 2 评论 -
TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)
提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。是结合了VAE和FLOW的新架构。在俩各数据集中的实验结果论文的主要贡献:首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。得益于图像领域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE应用到了完全E2E的TTS任务中。训练非常简便,完全E2E。原创 2023-09-18 15:02:06 · 7698 阅读 · 4 评论 -
TTS | 轻量级语音合成论文详解及项目实现
介绍了之前的俩阶段语音合成(声学模型和Vocoders),因为VITS是高质量端到端的模型,所以论文提出的模型是基于VITS轻量级的端到端模型,论文主要几种在模型的解码部分,也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效地完成频域到时域的转换.在推理提升速度时,使用多段处理。在提出的方法时,每一个iSTFTNet,子段信号。推理时,比原本的VITS快了4.1倍,原创 2023-09-18 15:06:08 · 1832 阅读 · 0 评论 -
TTS | VocGAN声码器训练自己的数据集
本博客主要介绍的是如何使用VocGAN声码器训练不同的数据集~原创 2023-08-16 08:38:22 · 461 阅读 · 0 评论 -
Speech | 提取语音(数据集)的语音特征合集
提取语音(数据集)的语音特征工具(Extract audio features toolkits)本文主要讲解了提取数据集的一些主要工具,以及如何使用这些工具,包含安装以及运行命令。提取语音(数据集)的语音特征工具(Extract audio features toolkits)•openSMILE•••。原创 2023-06-13 18:20:36 · 1502 阅读 · 0 评论 -
TTS | 一文了解语音合成经典论文/最新语音合成论文篇【20240111更新版】
Text-to-speech(TTS)文本到语音,也就是语音合成。本文主要介绍一些语音合成的综述以及一系列经典论文。现有的语音合成的模型大多基于以下模型的核心思想。原创 2023-03-08 15:36:35 · 7755 阅读 · 1 评论