基于Matlab的说话人识别_基于matlab语音信号的说话人识别-CSDN博客

说话是人类相互沟通交流最方便、最快捷的一种方式，世界上每一个说话人都拥有自己特定的语音，正如每个人的指纹一样，都是绝无仅有的。说话人识别应用广泛，现已应用到通信、消费电子产品等各个领域。本文将把语音进行数字化传输、存储、然后进行识别等。说话人识别系统主要包括预处理、特征提取、训练和识别四个模块。其中预处理和特征提取尤为重要。有许多的预处理方法，对语音信号的采样和量化是第一，然后预加重和加窗。特征提取是指提取语音信号的重要特征的过程。信号的时域分析包括信号的短时平均能量和短时过零率等。频域分析可以采用LPC倒谱系数法和Mel倒谱系数法。为了训练得到模版语音信号，可以利用矢量量化（VQ）、隐马尔可夫模型（HMM）、BP神经网络（ANN）等对说话人的语音信号进行训练识别。

说话人识别实现过程中的算法是多种多样的。本文将运用MATLAB仿真工具强大的编程、图形开发功能和数学计算能力。本文将把BP神经网络作为训练识别的方法，利用MFCC(MEL频率倒谱系数)产生的语音信号特征向量，最后运用十字交叉法，建立起一个说话人识别系统。结合MATLAB平台中的GUI设计预处理、特征提取、训练等几个模板，最后利用神经网络的模式识别，真正实现说话人的识别。

关键词：语音识别 MATLAB 模式识别倒谱系数

Abstract

Talking is a way of human communication, the most convenient and quick communication, each of the speakers all over the world have their own specific speech, as everyone's fingerprints, are unique. Speaker recognition is widely used in various fields, have been applied to communications, consumer electronic products. This paper will make speech digital transmission, storage, and then identify etc.. The speaker recognition system includes preprocessing, feature extraction, training and recognition of four modules. The preprocessing and feature extraction is very important. There are many preprocessing methods of sampling and quantization, the speech signal is first, and then the pre emphasis and the window. Feature extraction is the process to extract important features of speech signal. Signal analysis in time domain signal short-time average energy and short-time zero crossing rate. Frequency domain analysis can be used LPC cepstrum coefficient and Mel cepstrum coefficient method. In order to get the template training speech signal, can use vector quantization (VQ), hidden Markov model (HMM), BP neural network (ANN) training recognition on the speaker's voice signal.

Speaker recognition in the process of realizing the algorithm is varied. This paper will use the MATLAB simulation tool powerful programming, graphical function and mathematical computation ability. This paper will use the BP neural network as a method of training recognition, using MFCC (MEL frequency cepstrum coefficient) speech signal feature vector is generated, finally using cross method, set up a speaker recognition system. Combined with the MATLAB platform GUI design in the preprocessing, feature extraction, training and several other template, finally using pattern recognition, neural network, realizing the speaker recognition.

Keywords: Speech recognition MATLAB Pattern recognition Cepstral coefficients

第一章引言

1.1 研究背景及意义

说话人识别技术也被称之为声纹识别技术，它属于一种生物的识别技术。说话人识别技术拥有方便，经济，准确等特点，广受世人瞩目。

最早的语言研究被称为“口耳之学”。因为当时没有可供研究的仪器，只能通过耳听口模仿来进行研究。

最早的语音信号处理研究起源于1876年，电话的发明者贝尔首次使用声电、电声转换技术实现了语音的远距离传输

。

语音信号经过语音合成，语音编码和语音识别三个发展过程。语音识别的实验追溯到20世纪50年代贝尔实验室的Audry系统，此系统仅仅只能识别10个英文数字。又经过很长时间的研究发展，现在我们已经完全进入语音识别时代。

1.2 优势及应用前景

生物认证技术有：虹膜识别，掌纹识别，指纹识别和声纹识别（语音识别）。声纹识别有不丢失，没有记忆和使用方便等独特的优点

。

对于虹膜识别技术，虽然准确性很高，但是实现困难，成本较高，所以不能普遍使用。指纹识别虽然是一种使用比较普遍的识别技术，成本也不算太高，但是用户不易接受，指纹往往和犯罪牵扯在一起。还有一些生物认证技术也因为实现难度过大而不被关注。但是说话人识别技术只需简单的麦克风，一台普通计算机就可以实现。和其他生物识别技术进行对比，说话人识别系统还具有使用方便，低成本，易实现等优点。

说话人识别技术应用前景十分广泛，可在各种安全认证身份的领域发挥重要作用。随着数字化时代的急速发展，数字音频数据随处可见，说话人识别技术不仅在语音检索和信息检索中投入使用，而且不少手机已经加入了语音拨号，语音书写短信，语音打开应用程序等等功能。

1.3 国内外研究现状

20世纪60年代末，世界掀起了一股语音识别的研究热潮。这期间研究出的重要成果包括动态规划（DP）和线性预测编码（LPC）技术等。

语音识别技术取得突破性进展是在20世纪70年代的时候。LPC技术得到了进一步发展，特别是其中的VQ和HMM系统理论。直到今天，这两种理论依旧是研究语音识别最有效，最常用的方法。

20世纪80年代，语音识别迎来了一股新新力量。人们重新开始了人工神经网络（ANN）研究，并有效地将ANN和HMM在同一语音识别中结合使用，使连续语音识别问题变得更加容易。近年来对于人工神经网络(ANN)的研究不断发展，关于语音信号处理的各项内容研究是促使其迅速发展的重要原因之一。同时，它的许多成就体现在语音信号处理技术。

人工神经网络（ANN）以其简单灵活有效的特点，逐渐成为实现语音识别技术的新宠。它将说话人识别技术的探究带入了一个新的高度。