⛄一、简介
1 案例背景
语音识别是一门覆盖面很广泛的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论及神经生物学等学科都有非常密切的关系"。通过语音信号处理和模式识别理论使得计算机自动识别和理解人类口述的语言,包括两种意义:一是将人类口述的语句逐句地进行识别并转换为文字;二是对口述语言所包括的需求和询问做出合理的分析,执行相关的命令,而不是仅仅转换为书面文字。本案例以语音识别为理论基础,通过与模式识别相结合的方式将其应用到信号灯图像的模拟控制领域,实现对指定语音信号进行自动识别并自动关联信号灯图像的效果,具有一定的使用价值。
2 理论基础
语音信号的端点检测是进行语音识别的一个基本步骤,它是特征训练和识别的基础。端点检测是指在语音信号中查找各种段落(如音素、音节、词素)的始点和终点的位置,并从语音信号中消除无声段,进而实现对语音有效信号段的截取。早期进行端点检测的主要依据是信号能量、振幅和过零率,但经常会出现误检测,效果并不明显。20世纪60年代日本学者Itakura提出了动态时间规整算法(Dynamic Time Warping, DTW) , 该算法的基本思想是把未知量均匀地延长或缩短,并达到与参考模式的长度一致的效果"。在这一过程中,未知语音段的时间轴要不均匀地变化或弯折,以使其特征与模型特征得到对应。因此,一个完整的基于统计的语音识别系统可大致分为以下步骤:
(1)语音信号预处理:
(2)语音信号特征提取&