自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 零基础语音识别——Task 4打卡

零基础语音识别——Task 4打卡特征提取模型搭建与训练由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning特征提取前面的流程中已经说过,在特诊提取上,选择了梅尔频谱对音频信号进行特征提取。但是这样的提取方式虽然在第0个维度上的特征是一样的,但是在第1个特征(滑动窗口数量)会随着音频时长的改变而增加。因此,对特征提取需要进一步处理。如代码中:# 计算梅尔频谱(mel spectrogram),并把它作为特征mel

2021-04-19 09:56:47 172 1

翻译 零基础语音识别入门——Task3打卡

零基础语音识别入门——Task3打卡音频数据特征MFCC特征提取梅尔频谱由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning音频数据特征Task 3 中介绍了许多音频特征如:过零率;频率质心;胜浦衰减;色度频谱等。以上已具体说明的四类特征中的前三个都是通过对声波信号进行一些处理,或者提取声波信号的特征。前三种方法没有对声波信号进行增维,因此,若想进一步做更为细致的分析,我认为是不够的。而第四种数据特征色度频谱将频谱投

2021-04-16 19:45:21 97

原创 零基础入门语音学习之CNN-baseline——Task2打卡

零基础入门语音学习之CNN-baseline——Task2打卡音频特征包络图声谱图由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning音频特征提示:在Task2打卡的中,主要是对声音有个初步认识。运动的库主要是librosa,在.py文件中可以用playsound对声音进行播放,在jupyter notebook选择IPython.display.ipd去播放声音。音频信号是模拟量,输入到计算机中需要将模拟量转化为数

2021-04-15 14:46:29 196

原创 零基础入门语音学习之CNN-baseline

零基础入门语音学习之CNN-baseline环境介绍特征提取方法的理解baseline由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning环境介绍环境要求:librosa tensorflow 2.xlibrosa是一个功能强大的语音处理库,后面会用这个库对语音数据特征进行提取。tensorflow 2.x是本次实现语音识别的深度学习库。语音数据为kaggle开源可商用的语音数据集。https://pan.baid

2021-04-12 10:18:42 469

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除