- Speech -
文章平均质量分 85
包含TTS(Text-to-Speech)文字转语音,STT等语音相关论文以及项目等
夏天|여름이다
人工智能研究员,致力于计算机视觉,自然语言处理,语音处理,多模态模型,强化学习等相关研究。
展开
-
Speech | 语音克隆Openvoice的论文解读及项目实现
本文主要介绍了语音克隆Openvoice的论文以及项目实现~原创 2024-01-10 08:19:05 · 1373 阅读 · 1 评论 -
Speech | 人工智能中语音质量评估方法详解及代码
本文主要讲解人工智能中语音合成,语音转换,语音克隆等生成语音的一些质量评估方法~原创 2024-01-08 15:22:00 · 4774 阅读 · 0 评论 -
TTS | NaturalSpeech语音合成论文详解及项目实现【正在更新中】
本文主要是 讲解了NaturalSpeech论文及项目~原创 2024-01-02 16:07:44 · 1828 阅读 · 1 评论 -
TTS | 2019~2023年最新增强/生成情绪的语音合成调研(20231211更新版)
本博客主要是增强/生成情绪的语音合成调研,论文按照时间顺序排列,原创 2023-12-11 14:16:32 · 2560 阅读 · 0 评论 -
TTS | emotional-vits情绪语音合成的实现
本文主要介绍了情绪语音合成项目训练自己的数据集的实现过程~原创 2023-12-10 15:46:00 · 1600 阅读 · 1 评论 -
TTS | NaturalSpeech2语音合成论文详解及项目实现
本文主要讲解了微软在2023年4月发表的NaturalSpeech2语音合成论文及项目相关~原创 2023-12-08 09:58:47 · 2058 阅读 · 1 评论 -
MTTS | 多语言多人的VITS语音合成项目实现
本文主要是 讲解了PolyLangVITS的论文及项目实现~原创 2023-12-06 09:38:28 · 1848 阅读 · 2 评论 -
实用篇 | T-SNE可视化工具详情及代码示例
TSNE,降维方法之一。在简要说明之后,让我们举一个如何在Python中实际使用T-SNE的例子。降维在机器学习中非常重要。这是因为如果使用高维数据创建模型,则很容易欠拟合。换句话说,有太多无用的数据需要学习。您可以通过从各种数据中仅选择最重要的数据在模型中使用它,也可以使用多个数据创建新数据并使其低维。无论如何,有必要将此类高维数据转换为低维数据。这称为降维。(还有其他方法可以创建要素,例如“特征消除”和“特征选择”。原创 2023-11-22 15:38:28 · 9043 阅读 · 1 评论 -
Speech | openSMILE语音特征提取工具
openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。官网有linux和windows版本提供下载,windows可以不编译直接用,建议在命令行里指明 openSMILE 绝对路径。openSMILE的输入输出格式文件输入格式WEKA’s ARFF format.(由htk工具产生)原创 2023-11-22 10:01:07 · 940 阅读 · 0 评论 -
Speech | 语音中的风格迁移论文,总结及核心代码详解[20240103更新版]
1.样式标记:端到端语音合成中的无监督样式建模、控制和传输摘要在这项工作中,我们提出了“全局风格代币”(GST),这是一个在Tacotron(最先进的端到端语音合成系统)中联合训练的嵌入库。嵌入在没有明确标签的情况下进行训练,但学会了对大范围的声学表现力进行建模。商品及服务税会带来一系列丰富的重要结果。它们生成的软可解释“标签”可用于以新颖的方式控制合成,例如改变速度和说话风格 - 独立于文本内容。它们还可用于风格转换,在整个长格式文本语料库中复制单个音频剪辑的说话风格。原创 2023-10-23 18:20:39 · 1332 阅读 · 0 评论 -
Speech | 人工智能中关于语音务必需要了解的基础知识(信号处理)及代码
语音信号知识点总结!原创 2024-01-24 14:39:40 · 1130 阅读 · 0 评论 -
Speech | .flac文件转换为.wav文件,并进行重采样(Python脚本)
把flac结尾的,替换为wav文件,然后对wav文件进行重采样(48000->22050),可以更换采样率,运行后保存为新的地址,所有文件都在同一文件夹下(保证能运行)。原创 2023-10-18 16:01:04 · 519 阅读 · 0 评论 -
TTS | 语音合成模型实验结果经验总结
本文主要是语音合成模型实验结果经验总结!!首先列出实验过的所有模型Tacotron&Tacotron2Bark(E2E)VITS/VITS2E2EMB-iSTFT-VITSE2E)原创 2023-10-18 15:08:07 · 764 阅读 · 1 评论 -
TTS | 轻量级VITS2的项目实现以及API设置
目前项目还未来得及发表论文,且项目还在完善中(截止到2023.10.18)。原创 2023-10-24 08:17:18 · 2396 阅读 · 2 评论 -
TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)
提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。是结合了VAE和FLOW的新架构。在俩各数据集中的实验结果论文的主要贡献:首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。得益于图像领域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE应用到了完全E2E的TTS任务中。训练非常简便,完全E2E。原创 2023-09-18 15:02:06 · 7698 阅读 · 4 评论 -
TTS | 轻量级语音合成论文详解及项目实现
介绍了之前的俩阶段语音合成(声学模型和Vocoders),因为VITS是高质量端到端的模型,所以论文提出的模型是基于VITS轻量级的端到端模型,论文主要几种在模型的解码部分,也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效地完成频域到时域的转换.在推理提升速度时,使用多段处理。在提出的方法时,每一个iSTFTNet,子段信号。推理时,比原本的VITS快了4.1倍,原创 2023-09-18 15:06:08 · 1832 阅读 · 0 评论 -
Speech | 语音处理,分割一段音频(python)
本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。原创 2023-09-05 11:35:54 · 6427 阅读 · 3 评论 -
Speech | 提取语音(数据集)的语音特征合集
提取语音(数据集)的语音特征工具(Extract audio features toolkits)本文主要讲解了提取数据集的一些主要工具,以及如何使用这些工具,包含安装以及运行命令。提取语音(数据集)的语音特征工具(Extract audio features toolkits)•openSMILE•••。原创 2023-06-13 18:20:36 · 1502 阅读 · 0 评论 -
CV | Emotionally Enhanced Talking Face Generation论文详解及代码实现
本博客主要讲解了Emotionally Enhanced Talking Face Generation(情感增强的谈话人脸生成)论文概括与项目实现,以及代码理解。Code:(克隆项目下载权重后,可直接进行推理)原创 2023-06-01 15:31:41 · 1630 阅读 · 9 评论 -
TTS | 基于FastSpeech2的语音中英文语音合成项目
环境:Ubuntu(docker),pytorch,原创 2023-04-04 13:24:20 · 3644 阅读 · 7 评论 -
多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解
情绪是人类行动的一个固有部分,因此,开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中,一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。在本文中,我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN)系统,该系统利用了本地信息(即说话人之间的内/外依赖性)和全局信息(上下文)。建议的模型使用基于图谱神经网络 (GNN) 的架构来模拟对话中的复杂关系(本地和全局信息)。原创 2023-04-03 15:22:12 · 1854 阅读 · 0 评论 -
NLP | SentenceTransformer将句子进行编码并计算句子语义相似度
Sentence Transformer是一个Python框架,用于句子、文本和图像嵌入Embedding。这个框架计算超过100种语言的句子或文本嵌入。然后,这些嵌入可以进行比较,例如与余弦相似度进行比较,以找到具有相似含义的句子,这对于语义文本相似、语义搜索或释义挖掘非常有用。该框架基于PyTorch和Transformer,并提供了大量预训练的模型集合,用于各种任务,此外,很容易微调自己的模型。如果没有的话,利用pip安装如果是conda的虚拟环境时,可以使用以下命令安装句子转换器。原创 2023-04-03 12:45:29 · 4895 阅读 · 1 评论 -
TTS | 利用Fastspeech训练LJSpeech语音数据集后英文文本生成语音及代码详解
基于的前馈网络,用于并行生成梅尔谱图。模型与自回归相比,梅尔谱图生成速度加快了270倍,端到端语音合成速度加快了38倍。项目实现把下载的预训练模型改名为解压文件当当前文件夹然后运行处理完数据后,开始进行训练(训练将近一周)训练后如图训练后进行验证,先修改eval.py中的超参数 --step ,改为自己刚训练后的model_new文件夹下的checkpoint后面的数,如图我的情况把默认0,改为768000,如下然后再运行(如果运行后出现错误,请参考Q&A2)结果显示如图。原创 2023-09-20 12:57:45 · 739 阅读 · 0 评论 -
Speech | 语音合成,语音识别常见数据集及数据格式详情
本文主要是介绍了语音中最常见的数据集(包含各个语种),及其格式等。原创 2023-03-08 16:23:29 · 11459 阅读 · 0 评论 -
TTS | 一文了解语音合成经典论文/最新语音合成论文篇【20240111更新版】
Text-to-speech(TTS)文本到语音,也就是语音合成。本文主要介绍一些语音合成的综述以及一系列经典论文。现有的语音合成的模型大多基于以下模型的核心思想。原创 2023-03-08 15:36:35 · 7755 阅读 · 1 评论