自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Tacotron 2.0

Tacotron 2.0模型结构Tacotron是一个端到端的从文本合成语音的模型,也是典型的encoder2decoder结构。encoder用来将文本特征转化为中间特征(可以类比为phoneme特征吧);decoder使用自回归的方式,使用中间特征与上一时刻的mel特征输出去生成这一时刻的mel特征。EncoderEncoder主要包含Embeding层、三层的1d的卷积层、以及一层双向的LSTM层。Input为(Batch,L,F)L为文本长度,F为文本特征维度。Embed..

2021-04-15 21:15:57 438

原创 【随手记】分类任务

对分类任务来讲,本质也就是经过常见的线性变换、拉伸、旋转将低维数据投影到高维空间,继而凸显放大了不同样本之间的差异,也就是说学习到了数据的分布特征。

2020-12-07 16:00:08 158

原创 [随手记]MFCC中DCT的c0被取代的原因

应该是原先的c0 作为直流分量过大 ,导致识别效果不好。用log energy来代替之前的直流分量c0 因为log缩小了一下会更好

2020-11-26 16:24:40 216

原创 【随手记】音色与共振峰的关系

但是无论音色如何差别,共振峰却都是近似的。只要在特定的频率范围内产生共振,就会给我们某个特定元音的感觉。这也是为什么不同人发不同的声,都能听懂的原因

2020-11-23 22:51:53 995

原创 【随手记】共振峰的特性、与音高pitch

人声的共振峰有一个有意思的特性,每一个元音都有对应的一个共振峰,而且这个共振峰不随音高(pitch)的改变而改变。我们可以用不同的音高去发出相同一个元音。此时声带振动的频率改变,但是共鸣腔不变。也可以用相同的音高去发出不同的元音,此时声带振动的频率不变而共鸣腔的形状改变。也就是说,无论你声音高低,只要发出的是那个元音,那么被增强的频率就是它对应的频率。因此会造成的一个现象就是,当声音越来越高,高到超过了频率比较低的共振峰的时候,这个共振峰就失去了作用。这时候听起来的声音就会有点奇怪,但是这种奇怪,有

2020-11-23 22:45:29 2190

原创 【随手记】为什么共振峰是声音的主要特征?

我们在嘈杂的地方为什么还能听懂别人在说什么?因为音强最大的部分还是能为我们感知到。这就说明这是一个声音区别于其他声音的主要特征。也就是说,共振峰是声音的主要特征。(能量大)所以我们要测量共振峰的频率值,从物理上把握一个声音的性质。...

2020-11-23 22:13:25 643

原创 [Kaldi] MFCC特征提取源码详解

先占坑 明天写

2020-11-05 23:26:47 814 1

转载 MFCC与倒谱分析

最近学习音乐自动标注的过程中,看到了有关使用MFCC提取音频特征的内容,特地在网上找到资料,学习了一下相关内容。此笔记大部分内容摘自博文 http://blog.csdn.net/zouxy09/article/details/9156785 有小部分标注和批改时我自己加上的,以便今后查阅。语音信号处理之(四)梅尔频率倒谱系数(MFCC)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 在任意一个Automatic speech re...

2020-09-21 22:04:35 995 1

转载 Kaldi 使用,egs下通用样例及功能小结

样例表名词解释:egs下的样例 数据源,功能 用到的相关工具 aidatatang_200zh/s5 数据堂200h中文开源数据,用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN aishell/v1 openslr33数据 ,声纹识别 MFCC+UBM+PLDA aishell/s5 openslr33数据

2020-09-01 19:59:03 1616 1

原创 Linux下tensorflow-gpu的下载方法

最近在新服务上配tf,发现无论怎么配都cpu版本的,算是废了一番功夫才成功。所以这次把自己认为正确的步骤码一下一、查询GPU对应的CUDA版本在终端输入“nvidia-smi”,在第一行右上角我的驱动版本是384.130,打开英伟达的CUDA和显卡对照表网站https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.htm...

2019-12-17 22:31:37 880

原创 Java JNI调用kaldi动态链接库(Linux版本)

最近项目要求需要重新写一个kaldi的新模块,并且要用java去调用kaldi的这个模块。因为之前没有接触过JNI以及对kaldi底层配置,编译原理不熟悉,导致自己吃了很多碰,浪费了好多时间,再外加上kaldi这块的资料是真的不太多,因此自己写一个博客,一方面作为备忘录,另一方面希望以后能帮到有些kaldi的学习和使用者。这个过程中有两篇博客对我帮助很大,在这对这两位表示感谢,帮了很大的忙:...

2019-11-15 14:55:03 1273

转载 [转载]HMM+GMM语音识别技术

仅做备份原文链接:https://blog.csdn.net/fandaoerji/article/details/44853853————————————————HMM+GMM语音识别技术详解级PMTK3中的实例本人正在攻读计算机博士学位,目前一直再学习各种模型啊算法之类的。所以一直想把自己的学习过程总结一下,所以就开通了这个博客。这两天一直再看语音识别方面的知识,想把自己的理解总...

2019-09-17 14:59:25 409

原创 EM算法--三硬币模型的Q函数推导

观测数据为看到掷出来的硬币正反,正面为1,反面为0隐藏数据为A硬币掷出来的正反,正面选择硬币B为1,反面选择硬币C为0完全数据为,因此可得完全数据的对数似然函数为Q函数为 其中等于李航大佬《统计学习方法》中公式(9.5),E步到此结束,M求导和迭代,不在赘述...

2019-07-30 19:45:50 817

原创 李航统计学习方法-习题笔记

https://sine-x.com/statistical-learning-method/

2019-07-02 21:05:34 320

原创 语音信号处理-2-----语音信号处理的常用算法1(HMM)

这个Blog主要介绍语音信号处理中隐马尔科夫模型。一些小常识HMM在语音识别中的地位一直很高,只是最近这八九年间被深度学习给取代了。对于HMM应用于语音识别这一领域,我们就需要夸一夸李开复大佬,正是他把HMM带入了语音识别。此处应有呱唧呱唧!!!HMM--隐马尔科夫模型HMM又叫隐马尔科夫模型,顾名思义跟跟线性代数中出名马尔科夫链肯定有着千丝万缕的联系。从课本上的定义:“HMM是一...

2019-03-06 12:54:29 2800

转载 语音信号处理-1-----语音信号预处理

From:BUPT某非著名小白研究生,因研究语音信息处理,因基础知识薄弱,又不甘颓废当个咸鱼,写一些赵力《语音信号处理》此书的一些理解。写博客以鞭策自己前进。(实在觉得书本上好多废话,就在括号内用自己理解的人话解释一下)语音基本声学特性:语音室发声器官发出的一种声波,具有一定音色音调,音强和音长,其中,音色:即音质,是一种声音区别另一种声音的基本特性;(你声音好不好听)音调:声音的高低...

2018-11-29 01:07:05 6935

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除