语音特征:mfcc、fbank和语谱图概述

本文详细介绍了语音识别中谱特征的提取过程,包括STFT、log谱、mel滤波器和MFCC特征。从线性谱到log谱,再到经过mel滤波的logfbank特征,最后通过DCT变换得到MFCC特征。同时,讨论了谱特征与logfbank及MFCC之间的可逆转换关系。
摘要由CSDN通过智能技术生成

语谱图一般口语上说的是语音的log谱特征,就是你用audition或者Audacity看到的横轴是时间,纵轴是频域的图像。简单看一下语音特征的提取过程就可以知道这两者之间的关系了:

对语音序列做STFT,其中包括分帧,加窗和对每一帧的DFT变换,一般在语音识别里面会在加窗之后加一步预加重,输出的结果是复数(DFT的原因)。
STFT的结果取模称为线性谱,再加log称为log谱,此处对应语谱图的概念。
在这里插入图片描述

对线性谱做mel滤波,即乘上一组mel滤波系数(就是一组三角滤波器,放大了低频的成分),结果称为filter bank(fbank)特征,一般这一步单独拿来用的话也会加上log,称为log fbank特征。
MFCC特征就是对log fbank特征做DCT变换进行去相关之后的结果,实际操作也就是成一个DCT变换矩阵。
所以中间就是存在一个mel滤波的概念,从log谱是可以转到MFCC特征的(求一个exp,再做两个线性变换就行),此外,DCT变换是可逆的,所以MFCC和fbank特征也可以进行相互转换,但是从谱特征到fbank的过程不行的(滤波组矩阵不可逆),这一点清楚就行。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值