【语音识别】动态时间规整（DTW）孤立字语音识别【含Matlab源码 573期】

Matlab领域

已于 2023-12-03 19:21:04 修改

阅读量203

点赞数

分类专栏：付费专栏Matlab语音处理（进阶版）文章标签： matlab

于 2023-02-25 13:20:31 首次发布

本文链接：https://blog.csdn.net/weixin_63266434/article/details/129214620

版权

付费专栏Matlab语音处理（进阶版）专栏收录该内容

126 篇文章 49 订阅 ¥79.90 ¥99.00

订阅专栏

本文介绍了使用动态时间规整（DTW）进行孤立字语音识别的系统，通过Matlab实现。系统采用BP FG特征，匹配时运用DTW技术。在实验中，该系统展示出较高的识别准确率，并提供了部分源代码，适用于语音识别的研究与实践。

摘要由CSDN通过智能技术生成

在这里插入图片描述

⛄一、DTW简介

一个应用DTW的说话人识别系统如图8-4所示。它是与文本有关的说话人确认系统。它采用的识别特征是BP FG(附听觉特征处理) ，匹配时采用DTW技术。其特点为：①在结构上基本沿用语音识别的系统。②利用使用过程中的数据修正原模板，即当在某次使用过程
中某说话人被正确确认时使用此时的输人特征对原模板作加权修改(一般用1/10加权)。
这样可使模板逐次趋于完善。
在这里插入图片描述
采样时间间隔为2.5ms，所存的字音模板数为15x16，即15个说话人各自的16个规定音。建立模板时，每个说话人对各字音各发音10次再经适当平均得到上述的各模板。在确认过程中，要求待确认者在他已知的116个字音中任选2~4个。先任选2个字，将2个字所得的“计分”(距离的倒数)相加，若已超过判决逻辑中所设定的阈值则予以肯定。否则，令待确认者另选16个字中其它字音并将计分加权累计，直到共发4个字音。若仍未达到阈值，则给以拒绝。
这里提供一个典型的实验结果：对于1732个真的待确认者，经此系统的错误拒绝率为
0.6%；对于630个假的待证实者，错误接受率为0.3%。当然，适当改变阈值可以调整这
两种比率。