语音特征MFCC的求解过程

在语音辨识(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是「梅尔倒频谱系数」(Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音辨识。下面简单的介绍一下求解MFCC的过程。1.预强调(Pre-emphasis):将语音讯
摘要由CSDN通过智能技术生成


    在语音辨识(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是「梅尔倒频谱系数」(Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音辨识。下面简单的介绍一下求解MFCC的过程。

1.预强调(Pre-emphasis):将语音讯号 s(n) 通过一个高通滤波器。
                                 H(z)=1-a*(z-1) 
系数其中 a 介于 0.9 和 1.0 之间。若以时域的表达式来表示,预强调后的讯号 s2(n) 为 
                                 s2(n) = s(n) - a*s(n-1) 
这个目的就是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所压抑的高频部分。(另一种说法则是要突显在高频的共振峰。)

2.音框化(Frame blocking):先将 N 个取样点集合成一个观测单位,称为音框(Frame),通常 N 的值是 256 或 512,涵盖的时间约为 20~30 ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了 M 个取样点,通常 M 的值约是 N 的一半或 1/3。通常语音辨识所用的音讯的取样频率为 8 KHz或 16 KHz,以 8 KHz 来说,若音框长度为 256 个取样点,则

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值