零基础入门语音识别-食物语音识别Task03

对音频数据的特征提取

在Task02中,通过课程学习到了如何将音频做基本处理,将其可视化。这次Task03的学习就是对这些音频数据再进一步处理,过滤掉背景噪音等不需要的信息,筛选出需要的信息。

常见的音频特征提取

分别有:
·过零率 (Zero Crossing Rate)
·频谱质心 (Spectral Centroid)
·声谱衰减 (Spectral Roll-off)
·色度频率 (Chroma Frequencies)
·梅尔频率倒谱系数 (Mel-frequency cepstral coefficients ,MFCC)

细谈MFCC

梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。

MFCC一般会经过这么几个步骤:预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT).

具体来说,MFCC特征提取的步骤如下:

·对语音信号进行分帧处理
·用周期图(periodogram)法来进行功率谱(power spectrum)估计
·对功率谱用Mel滤波器组进行滤波,计算每个滤波器里的能量
·对每个滤波器的能量取log
·进行离散余弦变换(DCT)变换
·保留DCT的第2-13个系数,去掉其它
其中,前面两步是短时傅里叶变换,后面几步主要涉及梅尔频谱。其中最重要的就是快速傅里叶变换(FFT)和梅尔滤波器组,这两个进行了主要的降维操作。

短时傅里叶变换

短时傅里叶变换,即把一段长信号分帧(将语音分成小段,并让相邻的两段帧之间有一段重叠区域,避免相邻两帧的变化过大)、加窗(将每一帧代入窗函数,窗外的值设定为0,消除各个帧两端可能会造成的信号不连续性),再对每一帧做快速傅里叶变换(FFT)(将信号转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性),最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式。

梅尔滤波器组

为了模拟人耳对声音的感知,人们发明的梅尔滤波器组。一组大约20-40(通常26)个三角滤波器组,它会对上一步得到的周期图的功率谱估计进行滤波。而且区间的频率越高,滤波器就越宽(但是如果把它变换到美尔尺度则是一样宽的)。所以越高频率的声音就被滤得越多,留下的越少;越低频率的声音就被滤得越少,留下的越多,进而模拟人的耳朵对声音的感知。
在这里插入图片描述

学习心得

这次Task03的学习,主要是针对音频数据的特征处理,主要是理解如何MFCC是如何模拟人耳对声音的识别的。我对MFCC的理解是,先将可视化的音频分段,并且要将相邻的两段帧重叠一小段,避免变化太大,要尽量保持两段帧之间的连续性。得到声谱图后,再模拟人耳对声音的感知,过滤掉高频率的声音,保留低频率的声音,即通过梅尔滤波器组,将频率转换成梅尔尺度。在梅尔频谱上做倒谱分析(取对数log,做离散余弦变换(DCT)变换)就得到了梅尔倒谱,进行DCT后,得到26个倒谱系数(Cepstral Coefficents),最后我们保留2-13这12个数字,这12个数字就叫MFCC特征。对功率谱再做DCT的目的就是为了提取信号的包络。

参考链接

浅谈MFCC.
Task3 食物声音识别-音频数据特征提取

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值