零基础入门语音识别-食物语音识别Task03

最新推荐文章于 2021-04-23 00:14:32 发布

wensaaaa

最新推荐文章于 2021-04-23 00:14:32 发布

阅读量137

点赞数 1

分类专栏：零基础语音识别

本文链接：https://blog.csdn.net/wensaaaa/article/details/115801180

版权

零基础语音识别专栏收录该内容

6 篇文章 0 订阅

订阅专栏

对音频数据的特征提取

在Task02中，通过课程学习到了如何将音频做基本处理，将其可视化。这次Task03的学习就是对这些音频数据再进一步处理，过滤掉背景噪音等不需要的信息，筛选出需要的信息。

常见的音频特征提取

分别有：
·过零率（Zero Crossing Rate）
·频谱质心（Spectral Centroid）
·声谱衰减 (Spectral Roll-off）
·色度频率（Chroma Frequencies）
·梅尔频率倒谱系数（Mel-frequency cepstral coefficients ，MFCC）

细谈MFCC

梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。

MFCC一般会经过这么几个步骤：预加重，分帧，加窗，快速傅里叶变换(FFT)，梅尔滤波器组，离散余弦变换(DCT).

具体来说，MFCC特征提取的步骤如下：

·对语音信号进行分帧处理
·用周期图(periodogram)法来进行功率谱(power spectrum)估计
·对功率谱用Mel滤波器组进行滤波，计算每个滤波器里的能量
·对每个滤波器的能量取log
·进行离散余弦变换（DCT）变换
·保留DCT的第2-13个系数，去掉其它
其中，前面两步是短时傅里叶变换，后面几步主要涉及梅尔频谱。其中最重要的就是快速傅里叶变换（FFT）和梅尔滤波器组，这两个进行了主要的降维操作。

短时傅里叶变换

短时傅里叶变换，即把一段长信号分帧（将语音分成小段，并让相邻的两段帧之间有一段重叠区域，避免相邻两帧的变化过大）、加窗（将每一帧代入窗函数，窗外的值设定为0，消除各个帧两端可能会造成的信号不连续性），再对每一帧做快速傅里叶变换（FFT）（将信号转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性），最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式。

梅尔滤波器组

为了模拟人耳对声音的感知，人们发明的梅尔滤波器组。一组大约20-40(通常26)个三角滤波器组，它会对上一步得到的周期图的功率谱估计进行滤波。而且区间的频率越高，滤波器就越宽(但是如果把它变换到美尔尺度则是一样宽的）。所以越高频率的声音就被滤得越多，留下的越少；越低频率的声音就被滤得越少，留下的越多，进而模拟人的耳朵对声音的感知。
在这里插入图片描述

学习心得

这次Task03的学习，主要是针对音频数据的特征处理，主要是理解如何MFCC是如何模拟人耳对声音的识别的。我对MFCC的理解是，先将可视化的音频分段，并且要将相邻的两段帧重叠一小段，避免变化太大，要尽量保持两段帧之间的连续性。得到声谱图后，再模拟人耳对声音的感知，过滤掉高频率的声音，保留低频率的声音，即通过梅尔滤波器组，将频率转换成梅尔尺度。在梅尔频谱上做倒谱分析（取对数log，做离散余弦变换（DCT）变换）就得到了梅尔倒谱，进行DCT后，得到26个倒谱系数(Cepstral Coefficents)，最后我们保留2-13这12个数字，这12个数字就叫MFCC特征。对功率谱再做DCT的目的就是为了提取信号的包络。

参考链接

浅谈MFCC.
Task3 食物声音识别-音频数据特征提取

wensaaaa

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
零基础入门语音识别-食物语音识别Task03

对音频数据的特征提取在Task02中，通过课程学习到了如何将音频做基本处理，将其可视化。这次Task03的学习就是对这些音频数据再进一步处理，过滤掉背景噪音等不需要的信息，筛选出需要的信息。常见的音频特征提取分别有：·过零率（Zero Crossing Rate）·频谱质心（Spectral Centroid）·声谱衰减 (Spectral Roll-off）·色度频率（Chroma Frequencies）·梅尔频率倒谱系数（Mel-frequency cepstral coeff
复制链接

扫一扫

专栏目录