wmh02240-CSDN博客

转载笔记摘录：2018.09.10---数据集准备

在kaldi说话人识别示例（egs/sre10,egs/sre16）中，数据总共有两大类，一是训练集（training），二是评估数据集（evaluation）。对于评估数据集又分为两类，一是用来注册（enrollment）的数据集，二是测试（test）集。一、训练集的准备训练集需要准备的文本文件是三类：spk2utt, utt2spk以及wav.scp1 spk2utt 是说话人id...

2018-09-11 13:56:23 567 3

转载笔记摘录：2018.09.06---Kaldi中的特征提取

简介我们做特征提取和波形读取的这部分代码，其目的是为了得到标准的MFCC(译注：梅尔倒谱系数)和 PLP(译注：感知线性预测系数)特征，设置合理的默认值但留了一部分用户最有可能想调整的选项（如梅尔滤波器的个数，最小和最大截止频率等等）。这部分代码只读取 wav 文件里的 pcm(译注：脉冲编码调制)数据。这类文件通常带.wav 或.pcm 后缀（虽然有时.pcm 后缀会用于 sph...

2018-09-07 12:11:14 540

转载笔记摘录：2018.09.03---声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能，除此之外还有其它的一些指标，如：信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标，这部分后续于详细展开讲解。错误拒绝率（False Rejection Rate, FRR）：分类问题中，若两个样本为同类（同一个人），却被系统误认为异类（非同一个人），则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。 ...

2018-09-03 19:48:39 3636 1

转载笔记摘录：2018.09.01---Kaldi构建一个简单的英文数字串识别系统

本文主要参考的是 kaldi-asr.org，主要讲述的是用自己的录音来构建一个数字串识别系统。本文将主要分为以下几个部分：录制语音这里是英文数字串识别，因此需要一些用英语朗读数字的语音。我录制了 128 个语音文件，分别是两个人朗读，其中每个文件只包含三个数字。这 128 文件中 80 个用于训练， 48 个用于测试。并且训练数据和测试数据都被分成了 8 部分（可以假装成 8 个...

2018-09-01 16:55:12 1996 1

翻译笔记摘录：2018.04.16---概率论与统计学基础知识

仅供自己学习参考，若有侵权，请联系minhuiwon@163.com这次主要介绍的是多个随机变量之间的关系，主要涉及联合概率，边缘概率，条件概率这三种关系，还有一个利用他们之间关系导出的非常重要的公式：贝叶斯公式。 1.联合概率联合概率指的是包含多个条件且所有条件同时成立的概率，记作P(X=a,Y=b)或P(a,b)，有的书上也习惯记作P(ab)，但是这种记法个人不太习惯，所以下...

2018-08-29 20:02:03 366

翻译笔记摘录：2018.05.02---混合高斯模型GMM

仅供自己学习参考，若有侵权，请联系minhuiwon@163.com使用混合高斯随机变量的分布用于匹配真实世界的数据（如语音特征）时，就形成了混合高斯模型（ GMM ）。GMM作为描述基于傅里叶频谱语音特征的统计模型，在传统语音识别系统的声学建模中发挥了重要作用。我们将讨论GMM 在声学模型中的关键优势，这些优势使得期望最大化算法（ EM ）可以被有效地用来训练模型，以匹配语音特征。高斯...

2018-08-29 20:01:22 301

翻译笔记摘录：2018.05.12---基础概念

仅供自己学习参考，若有侵权，请联系minhuiwon@163.com说话人语音信号产生原理：声音散发出来后表现成一种隐形波的形式，经过波的传播，这种声音就可以被人耳发觉，这种波的振动频率的范围划分在 20Hz-100k Hz 的区间里。人类生存的大自然中包含各种各样的声音，就像我们所熟悉的刮风声、打雷声、下雨声、撞击声、鸣笛声等。而说话人发出的语音信号也属于声音的一种，归类在人的发音器官发...

2018-08-29 20:00:52 668

转载笔记摘录：2018.08.17---发展历程

仅供自己学习参考，若有侵权，请联系minhuiwon@163.com声纹识别，也称作说话人识别，是一种通过声音判别说话人身份的技术。从直觉上来说，声纹虽然不像人脸、指纹的个体差异那样直观可见，但由于每个人的声道、口腔和鼻腔也具有个体的差异性，因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器，那作为接收器的人耳生来也具备辨别声音的能力。从语音字典是否受限的角度上来区分，声纹识别可以...

2018-08-29 20:00:22 483

翻译笔记摘录：2018.08.25---MFCC

仅供自己学习参考，若有侵权，请联系minhuiwon@163.com1.人声识别流程人声识别分为训练和预测两个部分。训练指的是生成预测模型，预测是利用模型产生预测结果。首先介绍下训练的过程，分为以下三个部分：1) 基于梅尔倒频谱算法，提取声音特征，并将其转换成频谱图片。2) 将人声频谱作为正样本，动物声音和杂音等非人声作为负样本，交由神经网络模型训练。3) 基于训...

2018-08-29 19:59:00 522

翻译笔记摘录：2018.08.29---如何成为一名全栈语音识别工程师？

仅供自己学习参考，若有侵权，请联系minhuiwon@163.com语音识别基础知识【数学与统计学】数学是所有学科的基础，其中的高等数学、数理方程、泛函分析等课程是必要的基础知识，概率论与数理统计也是语音识别的基础学科。【声学与语言学】声学基础、理论声学、声学测量等是声学方面的基础课程，有助于了解更多声学领域的知识。语言学概论、语言哲学、语义最小论与语用多元论、语法化与语义图等知识...

2018-08-29 19:55:04 285

灰灰狗的博客