语音识别技术是让机器能够听懂人类语言,即对人类语音进行识别转化为文字文本形式。语音识别技术原理包括了信号采集、信号处理、特征提取、模板训练和匹配识别五个部分。
语音的输入首先要进行的就是信号的采集,本文利用电脑或手机采集音频信号,并进行储存。需要注意的是要将文件保存成波形文件即文件后缀为‘.wav’格式。
信号处理包括了预加重、加窗、分帧、端点检测。预加重的作用是对语音信号的高频部分进行加强,减少口唇辐射的影响,增强信号的高频分辨率。分帧是为了将语音信号分成小段即近似为平稳的信号来进行处理,加窗是为了使各个小段信号之间的衔接更加平顺。加窗、分帧的作用都是对语音信号进行处理,使其更加适合进行数字化处理。
特征提取是将语音信号的特征参数提取出来。语音信号可提取的特征参数包含线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)。
模板训练是将若干个语音信号在进行前端处理后,提取相应的特征参数,得到语音识别系统中的参考模板。主要是用来进行语音识别时与待测语音进行匹配,将匹配到的模板语音作为识别结果进行输出。
匹配识别是将待识别语音信号的特征参数与模板库里的语音信号进行匹配,最后得出识别结果。主要方法包括动态时间规整(DTW)、矢量量化(VQ)、隐形马尔可夫模型(HMM)。