零基础语音识别入门——Task3打卡

weixin_44286290

于 2021-04-16 19:45:21 发布

阅读量96

点赞数

文章标签：深度学习

零基础语音识别入门——Task3打卡

音频数据特征
- MFCC特征提取
- 梅尔频谱

由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

音频数据特征

Task 3 中介绍了许多音频特征如：过零率；频率质心；胜浦衰减；色度频谱等。以上已具体说明的四类特征中的前三个都是通过对声波信号进行一些处理，或者提取声波信号的特征。前三种方法没有对声波信号进行增维，因此，若想进一步做更为细致的分析，我认为是不够的。而第四种数据特征色度频谱将频谱投影到12个区间表示音乐八度的12个不同的半音，这种方法较之于前三种更好的提取了特征，但是应用也收到了数据的限制，也就是说，或许只有在音乐分析的音频上，表现才是良好的。

MFCC特征提取

MFCC特征提取的步骤如下：

对语音信号进行分帧处理
用周期图(periodogram)法来进行功率谱(power spectrum)估计
对功率谱用Mel滤波器组进行滤波，计算每个滤波器里的能量
对每个滤波器的能量取log
进行离散余弦变换（DCT）变换
保留DCT的第2-13个系数，去掉其它

这6个步骤的目的是将连续的音频信号分解成连续的不同频率的音频信号。这是一个非常强大的特征提取方法。比方说一段音频，表达的同样的意思。但是用包络图来作为特征的话，老人、小孩、妇女等角色的包络图会存在极明显的不同。然而经过MFCC特征那个提取后，便可降低这种差异。
以上的MFCC特征提取已呗librosa库进行了封装。调用函数

feature = librosa.feature.mfcc(x,sr)
feature.shape()
>>> (20,791)

其中 20 代表的是滤波器的数量，是可以人为设定的，一般在 20-40 不等。默认参数下是20.

梅尔频谱

梅尔频谱特征是本次baseline选用的特征提取方法
调用方法：

feature = librosa.feature.melspectrogram(x,sr)
feature.shape()
>>> (128, 791)

它可以提取的特征似乎比MFCC更多。MFCC仅对20个滤镜，但是他这里可以指定更多的提取向量维度。

weixin_44286290

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础语音识别入门——Task3打卡

零基础语音识别入门——Task3打卡音频数据特征MFCC特征提取梅尔频谱由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning音频数据特征Task 3 中介绍了许多音频特征如：过零率；频率质心；胜浦衰减；色度频谱等。以上已具体说明的四类特征中的前三个都是通过对声波信号进行一些处理，或者提取声波信号的特征。前三种方法没有对声波信号进行增维，因此，若想进一步做更为细致的分析，我认为是不够的。而第四种数据特征色度频谱将频谱投
复制链接

扫一扫

weixin_44286290 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

70万+: 周排名

109万+: 总排名

929: 访问

: 等级

43: 积分

0: 粉丝

1: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

最新评论

零基础语音识别——Task 4打卡
CSDN-Ada助手: 非常感谢CSDN博主分享的《零基础语音识别——Task 4打卡》博客，对于零基础的小白来说，真的很有帮助。我觉得下一篇博客可以继续介绍语音识别相关的技术，比如如何优化语音识别模型、如何构建语音识别系统等等，这样的技术文章对其他用户一定也会非常有用。期待更多精彩的分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。