自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 笔记摘录:2018.09.10---数据集准备

在kaldi说话人识别示例(egs/sre10,egs/sre16)中,数据总共有两大类,一是训练集(training),二是评估数据集(evaluation)。对于评估数据集又分为两类,一是用来注册(enrollment)的数据集,二是测试(test)集。一、训练集的准备训练集需要准备的文本文件是三类:spk2utt, utt2spk以及wav.scp1 spk2utt 是说话人id...

2018-09-11 13:56:23 426 3

转载 笔记摘录:2018.09.06---Kaldi中的特征提取

简介       我们做特征提取和波形读取的这部分代码,其目的是为了得到标准的MFCC(译注:梅尔倒谱系数)和 PLP(译注:感知线性预测系数)特征,设置合理的默认值但留了一部分用户最有可能想调整的选项(如梅尔滤波器的个数,最小和最大截止频率等等)。这部分代码只读取 wav 文件里的 pcm(译注:脉冲编码调制)数据。这类文件通常带.wav 或.pcm 后缀(虽然有时.pcm 后缀会用于 sph...

2018-09-07 12:11:14 451

转载 笔记摘录:2018.09.03---声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能,除此之外还有其它的一些指标,如:信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标,这部分后续于详细展开讲解。  错误拒绝率(False Rejection Rate, FRR):分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。 ...

2018-09-03 19:48:39 3140 1

转载 笔记摘录:2018.09.01---Kaldi构建一个简单的英文数字串识别系统

本文主要参考的是 kaldi-asr.org,主要讲述的是用自己的录音来构建一个数字串识别系统。本文将主要分为以下几个部分:录制语音这里是英文数字串识别,因此需要一些用英语朗读数字的语音。我录制了 128 个语音文件,分别是两个人朗读,其中每个文件只包含三个数字。这 128 文件中 80 个用于训练, 48 个用于测试。并且训练数据和测试数据都被分成了 8 部分(可以假装成 8 个...

2018-09-01 16:55:12 1859 2

翻译 笔记摘录:2018.04.16---概率论与统计学基础知识

仅供自己学习参考,若有侵权,请联系minhuiwon@163.com这次主要介绍的是多个随机变量之间的关系,主要涉及联合概率,边缘概率,条件概率这三种关系,还有一个利用他们之间关系导出的非常重要的公式:贝叶斯公式。 1.联合概率联合概率指的是包含多个条件且所有条件同时成立的概率,记作P(X=a,Y=b)或P(a,b),有的书上也习惯记作P(ab),但是这种记法个人不太习惯,所以下...

2018-08-29 20:02:03 265

翻译 笔记摘录:2018.05.02---混合高斯模型GMM

仅供自己学习参考,若有侵权,请联系minhuiwon@163.com使用混合高斯随机变量的分布用于匹配真实世界的数据(如语音特征)时,就形成了混合高斯模型( GMM )。GMM作为描述基于傅里叶频谱语音特征的统计模型,在传统语音识别系统的声学建模中发挥了重要作用 。我们将讨论GMM 在声学模型中的关键优势,这些优势使得期望最大化算法( EM )可以被有效地用来训练模型,以匹配语音特征。高斯...

2018-08-29 20:01:22 244

翻译 笔记摘录:2018.05.12---基础概念

仅供自己学习参考,若有侵权,请联系minhuiwon@163.com说话人语音信号产生原理:声音散发出来后表现成一种隐形波的形式,经过波的传播,这种声音就可以被人耳发觉,这种波的振动频率的范围划分在 20Hz-100k Hz 的区间里。人类生存的大自然中包含各种各样的声音,就像我们所熟悉的刮风声、打雷声、下雨声、撞击声、鸣笛声等。而说话人发出的语音信号也属于声音的一种,归类在人的发音器官发...

2018-08-29 20:00:52 410

转载 笔记摘录:2018.08.17---发展历程

仅供自己学习参考,若有侵权,请联系minhuiwon@163.com声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力。从语音字典是否受限的角度上来区分,声纹识别可以...

2018-08-29 20:00:22 391

翻译 笔记摘录:2018.08.25---MFCC

 仅供自己学习参考,若有侵权,请联系minhuiwon@163.com1.人声识别流程人声识别分为训练和预测两个部分。训练指的是生成预测模型,预测是利用模型产生预测结果。首先介绍下训练的过程,分为以下三个部分:1) 基于梅尔倒频谱算法,提取声音特征,并将其转换成频谱图片。2) 将人声频谱作为正样本,动物声音和杂音等非人声作为负样本,交由神经网络模型  训练。3) 基于训...

2018-08-29 19:59:00 418

翻译 笔记摘录:2018.08.29---如何成为一名全栈语音识别工程师?

仅供自己学习参考,若有侵权,请联系minhuiwon@163.com语音识别基础知识【数学与统计学】数学是所有学科的基础,其中的高等数学、数理方程、泛函分析等课程是必要的基础知识,概率论与数理统计也是语音识别的基础学科。【声学与语言学】声学基础、理论声学、声学测量等是声学方面的基础课程,有助于了解更多声学领域的知识。语言学概论、语言哲学、语义最小论与语用多元论、语法化与语义图等知识...

2018-08-29 19:55:04 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除