一、文档介绍
嵌入式语音识别技术在251内核的实现。
缩写、术语 |
解 释 |
Specific Person Isolated Word Speech Recognition |
特定人孤立词语音识别 |
Endpoint detection |
端点检测 |
Feature parameter extraction |
特征参数提取 |
DTW |
(Dynamic Time Warping) 动态时间规整 |
LPCC |
线性预测倒谱参数 |
二、语音识别技术介绍
1.应用分类
(1)特定人与非特定人识别,特定人识别相对简单,训练者的识别率高,但非训练者的识别率很低。而非特定人不受此影响,但实现复杂,识别率也相对低一些。
(2)语音识别与身份识别,前者提取各个命令者发出的语音的共性特征,而后者提取差异性特征。基于语音的身份识别主要应用于门禁等安全领域。语音识别广泛应用于词语识别,工业控制等领域。
(3)连续与非连续(孤立词)语音识别,很明显,连续语音识别难度较大。嵌入式产品集中在孤立词语音识别方面。
(4)小词汇量和大词汇量语音识别。两者选择的方法是不一样的,会在识别率和识别速度上折中考虑。
(5)关键词识别,如在一段语音中抽取带有某个关键词的句子,或者根据哼的曲子旋律去搜索对应的歌曲等等。
本系统受限80251的计算和存储性能,主要实现基于特定人的孤立词语音识别。
2. 实现原理
语音识别主要包括:预处理、特征提取、训练和识别四个部分。
预处理主要包括去噪、预加重(去除口鼻辐射)、端点检测(检测有效语音段)等过程。
特征提取是对经过预处理后的语音信号进行特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。主要的特征参数包括:线性预测编码参数(LPC)、线性预测倒谱参数(LPCC)、MEL倒谱参数(MFCC)等。
语音模式库:即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者多次重复的语音参数中经过长时间训练得到的。
语音模式匹配:将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到识别结果。常用的方法包括:动态时间规整(DTW)、神经网络(ANN)、隐马尔科夫(HMM)等。DTW比较简单实用,适用于孤立词语音识别。HMM比较复杂,适用于大词汇量连续语音识别。
三、嵌入式语音识别难点
语音识别的关键是识别率的高低。PC语音识别的识别率主