语音识别方法概述

语音识别技术是让机器能够听懂人类语言,即对人类语音进行识别转化为文字文本形式。语音识别技术原理包括了信号采集、信号处理、特征提取、模板训练和匹配识别五个部分。

  语音的输入首先要进行的就是信号的采集,本文利用电脑或手机采集音频信号,并进行储存。需要注意的是要将文件保存成波形文件即文件后缀为‘.wav’格式。

信号处理包括了预加重、加窗、分帧、端点检测。预加重的作用是对语音信号的高频部分进行加强,减少口唇辐射的影响,增强信号的高频分辨率。分帧是为了将语音信号分成小段即近似为平稳的信号来进行处理,加窗是为了使各个小段信号之间的衔接更加平顺。加窗、分帧的作用都是对语音信号进行处理,使其更加适合进行数字化处理。

特征提取是将语音信号的特征参数提取出来。语音信号可提取的特征参数包含线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)。

模板训练是将若干个语音信号在进行前端处理后,提取相应的特征参数,得到语音识别系统中的参考模板。主要是用来进行语音识别时与待测语音进行匹配,将匹配到的模板语音作为识别结果进行输出。

匹配识别是将待识别语音信号的特征参数与模板库里的语音信号进行匹配,最后得出识别结果。主要方法包括动态时间规整(DTW)、矢量量化(VQ)、隐形马尔可夫模型(HMM)。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

霖䨎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值