zhangming0411-CSDN博客

原创 Tacotron 2.0

Tacotron 2.0模型结构Tacotron是一个端到端的从文本合成语音的模型，也是典型的encoder2decoder结构。encoder用来将文本特征转化为中间特征（可以类比为phoneme特征吧）；decoder使用自回归的方式，使用中间特征与上一时刻的mel特征输出去生成这一时刻的mel特征。EncoderEncoder主要包含Embeding层、三层的1d的卷积层、以及一层双向的LSTM层。Input为（Batch,L,F）L为文本长度，F为文本特征维度。Embed..

2021-04-15 21:15:57 550

原创【随手记】分类任务

对分类任务来讲，本质也就是经过常见的线性变换、拉伸、旋转将低维数据投影到高维空间，继而凸显放大了不同样本之间的差异，也就是说学习到了数据的分布特征。

2020-12-07 16:00:08 201

原创 [随手记]MFCC中DCT的c0被取代的原因

应该是原先的c0 作为直流分量过大，导致识别效果不好。用log energy来代替之前的直流分量c0 因为log缩小了一下会更好

2020-11-26 16:24:40 264

原创【随手记】音色与共振峰的关系

但是无论音色如何差别，共振峰却都是近似的。只要在特定的频率范围内产生共振，就会给我们某个特定元音的感觉。这也是为什么不同人发不同的声，都能听懂的原因

2020-11-23 22:51:53 1118

原创【随手记】共振峰的特性、与音高pitch

人声的共振峰有一个有意思的特性，每一个元音都有对应的一个共振峰，而且这个共振峰不随音高（pitch）的改变而改变。我们可以用不同的音高去发出相同一个元音。此时声带振动的频率改变，但是共鸣腔不变。也可以用相同的音高去发出不同的元音，此时声带振动的频率不变而共鸣腔的形状改变。也就是说，无论你声音高低，只要发出的是那个元音，那么被增强的频率就是它对应的频率。因此会造成的一个现象就是，当声音越来越高，高到超过了频率比较低的共振峰的时候，这个共振峰就失去了作用。这时候听起来的声音就会有点奇怪，但是这种奇怪，有

2020-11-23 22:45:29 2469

原创【随手记】为什么共振峰是声音的主要特征？

我们在嘈杂的地方为什么还能听懂别人在说什么？因为音强最大的部分还是能为我们感知到。这就说明这是一个声音区别于其他声音的主要特征。也就是说，共振峰是声音的主要特征。（能量大）所以我们要测量共振峰的频率值，从物理上把握一个声音的性质。...

2020-11-23 22:13:25 745

原创 [Kaldi] MFCC特征提取源码详解

先占坑明天写

2020-11-05 23:26:47 916 1

转载 MFCC与倒谱分析

最近学习音乐自动标注的过程中，看到了有关使用MFCC提取音频特征的内容，特地在网上找到资料，学习了一下相关内容。此笔记大部分内容摘自博文 http://blog.csdn.net/zouxy09/article/details/9156785 有小部分标注和批改时我自己加上的，以便今后查阅。语音信号处理之（四）梅尔频率倒谱系数（MFCC）zouxy09@qq.comhttp://blog.csdn.net/zouxy09 在任意一个Automatic speech re...

2020-09-21 22:04:35 1069 1

转载 Kaldi 使用，egs下通用样例及功能小结

样例表名词解释：egs下的样例数据源，功能用到的相关工具 aidatatang_200zh/s5 数据堂200h中文开源数据，用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN aishell/v1 openslr33数据，声纹识别 MFCC+UBM+PLDA aishell/s5 openslr33数据

2020-09-01 19:59:03 1743 1

原创 Linux下tensorflow-gpu的下载方法

最近在新服务上配tf，发现无论怎么配都cpu版本的，算是废了一番功夫才成功。所以这次把自己认为正确的步骤码一下一、查询GPU对应的CUDA版本在终端输入“nvidia-smi”，在第一行右上角我的驱动版本是384.130，打开英伟达的CUDA和显卡对照表网站https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.htm...

2019-12-17 22:31:37 933

原创 Java JNI调用kaldi动态链接库（Linux版本）

最近项目要求需要重新写一个kaldi的新模块，并且要用java去调用kaldi的这个模块。因为之前没有接触过JNI以及对kaldi底层配置，编译原理不熟悉，导致自己吃了很多碰，浪费了好多时间，再外加上kaldi这块的资料是真的不太多，因此自己写一个博客，一方面作为备忘录，另一方面希望以后能帮到有些kaldi的学习和使用者。这个过程中有两篇博客对我帮助很大，在这对这两位表示感谢，帮了很大的忙：...

2019-11-15 14:55:03 1359

转载 [转载]HMM+GMM语音识别技术

仅做备份原文链接：https://blog.csdn.net/fandaoerji/article/details/44853853————————————————HMM+GMM语音识别技术详解级PMTK3中的实例本人正在攻读计算机博士学位，目前一直再学习各种模型啊算法之类的。所以一直想把自己的学习过程总结一下，所以就开通了这个博客。这两天一直再看语音识别方面的知识，想把自己的理解总...

2019-09-17 14:59:25 461

原创 EM算法--三硬币模型的Q函数推导

观测数据为看到掷出来的硬币正反，正面为1，反面为0隐藏数据为A硬币掷出来的正反，正面选择硬币B为1，反面选择硬币C为0完全数据为,因此可得完全数据的对数似然函数为Q函数为其中等于李航大佬《统计学习方法》中公式（9.5），E步到此结束，M求导和迭代，不在赘述...

2019-07-30 19:45:50 869

原创李航统计学习方法-习题笔记

https://sine-x.com/statistical-learning-method/

2019-07-02 21:05:34 371

原创语音信号处理-2-----语音信号处理的常用算法1(HMM)

这个Blog主要介绍语音信号处理中隐马尔科夫模型。一些小常识HMM在语音识别中的地位一直很高，只是最近这八九年间被深度学习给取代了。对于HMM应用于语音识别这一领域，我们就需要夸一夸李开复大佬，正是他把HMM带入了语音识别。此处应有呱唧呱唧！！！HMM--隐马尔科夫模型HMM又叫隐马尔科夫模型，顾名思义跟跟线性代数中出名马尔科夫链肯定有着千丝万缕的联系。从课本上的定义：“HMM是一...

2019-03-06 12:54:29 2939

转载语音信号处理-1-----语音信号预处理

From：BUPT某非著名小白研究生，因研究语音信息处理，因基础知识薄弱，又不甘颓废当个咸鱼，写一些赵力《语音信号处理》此书的一些理解。写博客以鞭策自己前进。（实在觉得书本上好多废话，就在括号内用自己理解的人话解释一下）语音基本声学特性：语音室发声器官发出的一种声波，具有一定音色音调，音强和音长，其中，音色：即音质，是一种声音区别另一种声音的基本特性；(你声音好不好听)音调：声音的高低...

2018-11-29 01:07:05 7206