基于Matlab的说话人识别

目     录

摘   要

Abstract

第一章 引言

1.1 研究背景及意义

1.2 优势及应用前景

1.3 国内外研究现状

第二章 说话人识别的基本原理

2.1 说话人识别基本知识

2.1.1 语音的发声机理

2.1.2 清音和浊音

2.1.3 语音信号模型

2.1.4 语音识别基本过程

2.2 预处理模块

2.2.1 采样

2.2.2 量化

2.2.3 预加重

2.2.4 加窗

2.3 特征提取模块

2.3.1 短时平均能量分析

2.3.2 短时平均幅度分析

2.3.3 短时过零率分析

2.3.4 短时自相关分析

2.3.5  LPC倒谱系数(LPCC)

2.3.6  Mel频率倒谱系数(MFCC)

2.4 训练和识别模块

2.4.1 矢量量化模型(VQ)

2.4.2 隐马尔可夫模型(HMM)

2.4.3 人工神经网络模型(ANN)

2.4.4 HMM和ANN的混合模型

第三章 基于Matlab的说话人识别

3.1 说话人识别系统平台介绍

3.2 语音采集模板(Speech Recording Plane)

3.3 预处理模板(Voice Preprocessing Plane)

3.4 特征提取模板(Feature Extraction Plane)

3.5 训练识别模板(Speech Recognition Plane)

第四章 总结与展望

4.1 总结

4.2 展望

致   谢

参 考 文 献

附   录

摘     要

说话是人类相互沟通交流最方便、最快捷的一种方式,世界上每一个说话人都拥有自己特定的语音,正如每个人的指纹一样,都是绝无仅有的。说话人识别应用广泛,现已应用到通信、消费电子产品等各个领域。本文将把语音进行数字化传输、存储、然后进行识别等。说话人识别系统主要包括预处理、特征提取、训练和识别四个模块。其中预处理和特征提取尤为重要。有许多的预处理方法,对语音信号的采样和量化是第一,然后预加重和加窗。特征提取是指提取语音信号的重要特征的过程。信号的时域分析包括信号的短时平均能量和短时过零率等。频域分析可以采用LPC倒谱系数法和Mel倒谱系数法。为了训练得到模版语音信号,可以利用矢量量化(VQ)、隐马尔可夫模型(HMM)、BP神经网络(ANN)等对说话人的语音信号进行训练识别。

说话人识别实现过程中的算法是多种多样的。本文将运用MATLAB仿真工具强大的编程、图形开发功能和数学计算能力。本文将把BP神经网络作为训练识别的方法,利用MFCC(MEL频率倒谱系数)产生的语音信号特征向量,最后运用十字交叉法,建立起一个说话人识别系统。结合MATLAB平台中的GUI设计预处理、特征提取、训练等几个模板,最后利用神经网络的模式识别,真正实现说话人的识别。

关键词语音识别   MATLAB  模式识别  倒谱系数

Abstract

Talking is a way of human communication, the most convenient and quick communication, each of the speakers all over the world have their own specific speech, as everyone's fingerprints, are unique. Speaker recognition is widely used in various fields, have been applied to communications, consumer electronic products. This paper will make speech digital transmission, storage, and then identify etc.. The speaker recognition system includes preprocessing, feature extraction, training and recognition of four modules. The preprocessing and feature extraction is very important. There are many preprocessing methods of sampling and quantization, the speech signal is first, and then the pre emphasis and the window. Feature extraction is the process to extract important features of speech signal. Signal analysis in time domain signal short-time average energy and short-time zero crossing rate. Frequency domain analysis can be used LPC cepstrum coefficient and Mel cepstrum coefficient method. In order to get the template training speech signal, can use vector quantization (VQ), hidden Markov model (HMM), BP neural network (ANN) training recognition on the speaker's voice signal.

Speaker recognition in the process of realizing the algorithm is varied. This paper will use the MATLAB simulation tool powerful programming, graphical function and mathematical computation ability. This paper will use the BP neural network as a method of training recognition, using MFCC (MEL frequency cepstrum coefficient) speech signal feature vector is generated, finally using cross method, set up a speaker recognition system. Combined with the MATLAB platform GUI design in the preprocessing, feature extraction, training and several other template, finally using pattern recognition, neural network, realizing the speaker recognition.

Keywords: Speech recognition  MATLAB  Pattern recognition  Cepstral coefficients

第一章 引言

1.1 研究背景及意义

说话人识别技术也被称之为声纹识别技术,它属于一种生物的识别技术。说话人识别技术拥有方便,经济,准确等特点,广受世人瞩目。

最早的语言研究被称为“口耳之学”。因为当时没有可供研究的仪器,只能通过耳听口模仿来进行研究。

最早的语音信号处理研究起源于1876年,电话的发明者贝尔首次使用声电、电声转换技术实现了语音的远距离传输

语音信号经过语音合成,语音编码和语音识别三个发展过程。语音识别的实验追溯到20世纪50年代贝尔实验室的Audry系统,此系统仅仅只能识别10个英文数字。又经过很长时间的研究发展,现在我们已经完全进入语音识别时代。

1.2 优势及应用前景

生物认证技术有:虹膜识别,掌纹识别,指纹识别和声纹识别(语音识别)。声纹识别有不丢失,没有记忆和使用方便等独特的优点

对于虹膜识别技术,虽然准确性很高,但是实现困难,成本较高,所以不能普遍使用。指纹识别虽然是一种使用比较普遍的识别技术,成本也不算太高,但是用户不易接受,指纹往往和犯罪牵扯在一起。还有一些生物认证技术也因为实现难度过大而不被关注。但是说话人识别技术只需简单的麦克风,一台普通计算机就可以实现。和其他生物识别技术进行对比,说话人识别系统还具有使用方便,低成本,易实现等优点。

说话人识别技术应用前景十分广泛,可在各种安全认证身份的领域发挥重要作用。随着数字化时代的急速发展,数字音频数据随处可见,说话人识别技术不仅在语音检索和信息检索中投入使用,而且不少手机已经加入了语音拨号,语音书写短信,语音打开应用程序等等功能。

1.3 国内外研究现状

20世纪60年代末,世界掀起了一股语音识别的研究热潮。这期间研究出的重要成果包括动态规划(DP)和线性预测编码(LPC)技术等。

语音识别技术取得突破性进展是在20世纪70年代的时候。LPC技术得到了进一步发展,特别是其中的VQ和HMM系统理论。直到今天,这两种理论依旧是研究语音识别最有效,最常用的方法。

20世纪80年代,语音识别迎来了一股新新力量。人们重新开始了人工神经网络(ANN)研究,并有效地将ANN和HMM在同一语音识别中结合使用,使连续语音识别问题变得更加容易。近年来对于人工神经网络(ANN)的研究不断发展,关于语音信号处理的各项内容研究是促使其迅速发展的重要原因之一。同时,它的许多成就体现在语音信号处理技术。

人工神经网络(ANN)以其简单灵活有效的特点,逐渐成为实现语音识别技术的新宠。它将说话人识别技术的探究带入了一个新的高度。

第二章 说话人识别的基本原理

2.1 说话人识别基本知识

2.1.1 语音的发声机理

空气从肺排入喉咙,然后通过声带进入通道,最后由口辐射声波,从而形成了声音。声带以左负责产生激励;声带以右负责的是:“辐射系统”和“声道系统”。之所以存在不同性质的语音,是因为其激励和辐射不同

2.1.2 清音和浊音

浊音与清音都统称为音素,而音素则是构成语音信号的基本单元。

发浊音时,空气流经紧绷的声带,声带产生振动,所以声带会周期性的打开、闭合。如果声带的长度短,厚度薄,张力就很大,听起来的的音调就越高,所以浊音的基音频率就越高。

发清音时,空气流经声带,声带是张开的,则由肺排出的空气将不受防碍的经过声门。空气经过声门后会发生两种情况,一种是形成摩擦音,另一种情况则形成爆破音。这两种情况都统称为清音

2.1.3 语音信号模型

由语音的发生机理可知,语音的生成包括三个部分:声门负责产生激励,用

表示;声道负责调制,用

表示;嘴唇负责产生辐射,用

表示。语音信号生成模型如下图:

图2.1   语音信号生成模型图

所以语音生成系统函数可以表示为:

                    (2.1)

其中,激励函数:

 

  • 18
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值