![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DataWhale
文章平均质量分 64
Albert-61
中国矿业大学在读研究生。
展开
-
Datawhale语音识别-Task04
CNN CNN的基本原理是把图像转化为一个具有多个维度的数值矩阵,一般是三维(RGB),然后再设定若干个过滤器(卷积核),它们一般是比原图像要小的数值矩阵。把这些过滤器逐一在数值矩阵中进行局部“扫描”,算出一个结果,计算过程是将对应位置的数值做相乘,再相加。这就能得出另外一个比原数值矩阵更小的矩阵,是一个提取特征的过程,也就是卷积层。 接下来是激励层,对卷积后的数值进行非线性的变换,目的在于是其具有非线性的属性,使得多层的计算并不保持在同一个线性维度上。也就是激活函数,通常使用relu。 而图像两个像素之间原创 2021-04-20 00:15:37 · 85 阅读 · 0 评论 -
Datawhale语音识别-Task03
音频特征提取 在Task03中,我们将简要介绍以下特征,并详细学习MFCC特征提取知识: 过零率 (Zero Crossing Rate) 频谱质心 (Spectral Centroid) 声谱衰减 (Spectral Roll-off) 梅尔频率倒谱系数 (Mel-frequency cepstral coefficients ,MFCC) 色度频率 (Chroma Frequencies) MFCC特征提取 人的耳朵在接收信号的时候,不同的频率会引起耳蜗不同部位的震动。耳蜗就像一个频谱仪,自动在做特原创 2021-04-17 23:49:30 · 129 阅读 · 0 评论 -
Datawhale语音识别-Task02
介绍 声音是什么呢? 声音的原理是什么? 我们应该如何去分析声音数据? 声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。 声音是一种波动,当演奏乐器、拍打一扇门或者敲击桌面时,声音的振动会引起介质——空气分子有节奏的振动,使周围的空气产生疏密变化,形成疏密相间的纵波,这就产生了声波,这种现象会一直延续到振动消失为止。声音总可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅里叶变换。 上个问题中,提到的傅里叶变换,就是对声音(声波)的处原创 2021-04-16 00:50:24 · 109 阅读 · 0 评论 -
Datawhale语音识别-Task01
写在前面 本次参加datawhale组织的语音识别比赛,主要是想体验一下流程,以及熟悉一下天池打比赛的环境。 今天花费了大量时间在天池建mxnet环境,企图白嫖GPU,报错了AttributeError,代码与本地相同,唯一区别是天池python是3.6,有空再试试。 BaseLine源码 解压训练集、测试集 !wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train_sample.zip !unzip -qq t原创 2021-04-13 22:35:06 · 319 阅读 · 2 评论