语音识别入门
文章平均质量分 69
一个很菜的小猪
欢迎来到我的博客
展开
-
【语音识别】基于DNN-HMM的语音识别系统(含完整代码)
使用如下命令运行该实验,该程序末尾会打印出在测试集上的准确率。假设实现正确,应该得到95%以上的准确率,实现分类准确率为99.49%。本次实验所用的数据为0-9(其中0的标签为Z(Zero))和O这11个字符的英文录音所提取的39维的MFCC特征。请阅读dnn.py中的代码,理解该DNN框架,完善ReLU激活函数和FullyConnect全连接层的前向后向算法。本实验实现了一个简单的DNN的框架,使用DNN进行11个数字的训练和识别。实验中使用以上所述的训练和测试数据分别对该DNN进行训练和测试。原创 2022-10-09 15:37:40 · 2924 阅读 · 6 评论 -
【语音识别入门】My-Voice-Analysis
My-Voice-Analysis 是一个用于分析语音(同时语音、高熵)的 Python 库,打破话语并检测音节边界、基频轮廓和共振峰。性别区分语气分析发音得分发音率语速填充f0 统计。原创 2022-09-04 22:09:06 · 1172 阅读 · 0 评论 -
【语音识别入门】Python音频处理示例(含完整代码)
readframes:读取声音数据,传递一个参数指定需要读取的长度(以取样点为单位),readframes返回的是。把数据变成(0,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。,通过frombuffer函数将二进制转换为整型数组,通过其参数dtype指定转换后的数据格式。首先,需要import几个工具包,一个是python标准库中的。这一步去掉也可画出波形图,可以尝试不用此步,找出波形图的不同。frombuffer:根据声道数和量化单位,将读取的。原创 2022-09-02 17:30:43 · 8657 阅读 · 2 评论 -
【语音识别入门】特征提取(Python完整代码)
给定一段音频,请提取12维MFCC特征和23维FBank,阅读代码预加重、分帧、加窗部分,完善作业代码中FBank特征提取和MFCC特征提取部分,并给出最终的FBank特征和MFCC特征,存储在纯文本中,用默认的配置参数,无需进行修改。抽样时频率不够高,抽样出来的点既代表了信号中的低频信号的样本值,也同时代表高频信号样本值,在信号重建的时候,高频信号被低频信号代替,两种波形完全重叠在一起,形成严重失真。DFT得到了每个频带上信号的能量,但是人耳对频率的感知不是等间隔的,近似于对数函数。原创 2022-08-24 15:49:57 · 9642 阅读 · 6 评论 -
【语音识别入门】概述
Automatic Speech Recognition(ASR)或Speech to Text(STT),将语音转换为文本的任务。原创 2022-08-24 12:10:45 · 1385 阅读 · 0 评论