声纹识别
文章平均质量分 89
wmh02240
这个作者很懒,什么都没留下…
展开
-
笔记摘录:2018.08.29---如何成为一名全栈语音识别工程师?
仅供自己学习参考,若有侵权,请联系minhuiwon@163.com语音识别基础知识【数学与统计学】数学是所有学科的基础,其中的高等数学、数理方程、泛函分析等课程是必要的基础知识,概率论与数理统计也是语音识别的基础学科。【声学与语言学】声学基础、理论声学、声学测量等是声学方面的基础课程,有助于了解更多声学领域的知识。语言学概论、语言哲学、语义最小论与语用多元论、语法化与语义图等知识...翻译 2018-08-29 19:55:04 · 241 阅读 · 0 评论 -
笔记摘录:2018.09.01---Kaldi构建一个简单的英文数字串识别系统
本文主要参考的是 kaldi-asr.org,主要讲述的是用自己的录音来构建一个数字串识别系统。本文将主要分为以下几个部分:录制语音这里是英文数字串识别,因此需要一些用英语朗读数字的语音。我录制了 128 个语音文件,分别是两个人朗读,其中每个文件只包含三个数字。这 128 文件中 80 个用于训练, 48 个用于测试。并且训练数据和测试数据都被分成了 8 部分(可以假装成 8 个...转载 2018-09-01 16:55:12 · 1903 阅读 · 2 评论 -
笔记摘录:2018.09.10---数据集准备
在kaldi说话人识别示例(egs/sre10,egs/sre16)中,数据总共有两大类,一是训练集(training),二是评估数据集(evaluation)。对于评估数据集又分为两类,一是用来注册(enrollment)的数据集,二是测试(test)集。一、训练集的准备训练集需要准备的文本文件是三类:spk2utt, utt2spk以及wav.scp1 spk2utt 是说话人id...转载 2018-09-11 13:56:23 · 500 阅读 · 3 评论 -
笔记摘录:2018.09.03---声纹识别算法的技术指标
声纹识别在算法层面可通过如下基本的技术指标来判断其性能,除此之外还有其它的一些指标,如:信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标,这部分后续于详细展开讲解。 错误拒绝率(False Rejection Rate, FRR):分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。 ...转载 2018-09-03 19:48:39 · 3253 阅读 · 1 评论 -
笔记摘录:2018.09.06---Kaldi中的特征提取
简介 我们做特征提取和波形读取的这部分代码,其目的是为了得到标准的MFCC(译注:梅尔倒谱系数)和 PLP(译注:感知线性预测系数)特征,设置合理的默认值但留了一部分用户最有可能想调整的选项(如梅尔滤波器的个数,最小和最大截止频率等等)。这部分代码只读取 wav 文件里的 pcm(译注:脉冲编码调制)数据。这类文件通常带.wav 或.pcm 后缀(虽然有时.pcm 后缀会用于 sph...转载 2018-09-07 12:11:14 · 472 阅读 · 0 评论