【源码+文档】基于GMM与MFCC特征进行数字0-9的语音识别

最新推荐文章于 2024-08-15 16:46:21 发布

yuxibdd

最新推荐文章于 2024-08-15 16:46:21 发布

阅读量134

点赞数

文章标签：语音识别人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuxibdd/article/details/131918448

版权

二、实验环境

操作系统使用 MacOS，Python=3.6，python-speech-features=0.6，pyaudio， scikit-learn=0.18.1。

三、实验方案

3.1 MFCC 特征提取

我们使用课程提供的英文数据集，包括数字 0-9 共 150 个 wav 格式的音频文件。我们使用 Python 的 wav 包读取 wav 文件，使用 python-speech-features 获得每条音频数据的 13 维 MFCC 特征。我们在本实验中对加入一阶导与二阶导的 39 维特征同样进行了实验，但识别结果不如 13 维 MFCC 特征。我们分析原因很可能为训练数据过少导致数据的过拟合。具体来说，MFCC 特征提取算法首先进行预加重，然后对语音文件进行分帧，加窗，然后进行快速傅里叶变换，将它转换为频域上的能量分布来观察；将能量谱通过一组 Mel 尺度的三角形滤波器组，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；计算每个滤波器输出的对数能量，经离散余弦变换（DCT）得到 MFCC 系数；然后计算对数能量；最后提取动态差分参数。

在实际编写代码时，我们在 features.py 中编写了特征提取函数，返回每个数据样本的 13 维 MFCC 特征。

3.2 GMM 分类

在获取了 MFCC 特征之后，我们将编写基于 GMM 的分类算法。我们使用了scikit-learn 的 GaussianMixture 高斯混合分

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【源码+文档】基于GMM与MFCC特征进行数字0-9的语音识别

具体来说，MFCC 特征提取算法首先进行预加重，然后对语音文件进行分帧，加窗，然后进行快速傅里叶变换，将它转换为频域上的能量分布来观察；将能量谱通过一组 Mel 尺度的三角形滤波器组，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；我们将训练十个单核 GMM。在测试阶段，我们将每一个待分类样本输入至每一个 GMM，得到在该 GMM 下的对应评分，即该 GMM 对应数字的评分。在实际编写代码时，我们在 features.py 中编写了特征提取函数，返回每个数据样本的 13 维 MFCC 特征。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。