基于GMM与MFCC特征进行数字0-9的语音识别，GMM，MFCC，语音识别，中文数据，sklearn，Digital Voice Recognition。

计算机毕设论文

于 2023-01-28 19:26:52 发布

阅读量380

点赞数

分类专栏：机器学习实战100例文章标签： python 语音识别 GMM MFCC Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55771290/article/details/128781230

版权

机器学习实战100例专栏收录该内容

114 篇文章 383 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何基于Python、GMM和MFCC特征进行数字0-9的语音识别。实验中，使用13维MFCC特征提取，并通过scikit-learn的GaussianMixture模型进行分类。在中文数据集上，训练285条样本，测试30条，达到了63.33%的准确率。

摘要由CSDN通过智能技术生成

基于数字语音数据集，编写代码，使用 GMM 算法完成语音识别，对输入的一段音频进行分类，输出语音中的数字，如“2”、“10”。

二、实验环境

操作系统使用 MacOS，Python=3.6，python-speech-features=0.6，pyaudio， scikit-learn=0.18.1。

MFCC 特征提取

我们使用课程提供的英文数据集，包括数字 0-9 共 150 个 wav 格式的音频文件。我们使用 Python 的 wav 包读取 wav 文件，使用 python-speech-features 获得每条音频数据的 13 维 MFCC 特征。我们在本实验中对加入一阶导与二阶导的 39 维特征同样进行了实验，但识别结果不如 13 维 MFCC 特征。我们分析原因很可能为训练数据过少导致数据的过拟合。具体来说，MFCC 特征提取算法首先进行预加重，然后对语音文件进行分帧，加窗，然后进行快速傅里叶变换，将它转换为频域上的能量分布来观察；将能量谱通过一组 Mel 尺度的三角形滤波器组，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；计算每个

了解本专栏

超级会员免费看

计算机毕设论文

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于GMM与MFCC特征进行数字0-9的语音识别，GMM，MFCC，语音识别，中文数据，sklearn，Digital Voice Recognition。

基于GMM与MFCC特征进行数字0-9的语音识别，GMM，MFCC，语音识别，中文数据，sklearn，Digital Voice Recognition。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

计算机毕设论文 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。