Datawhale组队学习活动 Task 3

本次语音识别学习,主要通过学习基于LSTM的方法进行语音识别。本次主要提取MFCC特征。MFCC特征已经在Task2中说了。本篇主要是根据在学习慕课时候有以为梁贝茨博士曾经专门讲过一节音频特征的课,感觉很有用,所以以下为上课时候自己整理的相关音频特征的笔记。

  1. 什么是音频特征?
    答:绝大部分音频特征,最初起源于语音识别的任务中,他们可以精简原始的波形采样信号,从而被利用到其他模型中,使算法可以更容易的理解音频中蕴含的语义信息。例如乐器识别,音符起始点检测。
  2. 音频特征的分类
    答:直接输出VS统计值,瞬态VS全局,抽象程度的高低,提取过程中的差异(例如过零率,它也可以是将音频信号从时域上的波形信号,变换成频域的频谱后提取的特征。可以是需要通过特定模型得到的特征,例如频谱质心:还比如将音品分为乐音与噪音两部分之后,再基于一个部分得到的特征。根据人耳听觉认知的启发,例如梅尔频率倒谱系数即MFCC)。以上4个角度不完全分离,而是相互联系的关系。
  3. 常见的音频特征举例
    答:
    (1)能量特征:均方根能量:信号再一段时间内的能量均值,是一个典型的能量特征。(即可以是时域特征也可以是频域特征)
    (2)时域特征:起音时间(音符的能量包络在上升阶段的时长),过零率(信号在一段时间内,通过零点的次数),自相关(信号预期沿时间轴位移后的版本之间的相似度,这个可以用来计算单音的基频)
    (3)频域特征:频谱质心(信号的频谱中能量的集中点,可描述信号银色的明亮度,越亮的声音,能量越集中在高频部分,频谱质心的值就越大),频谱平坦度(量化信号与噪声之间相似度的参数,信号的平坦度越大则信号是噪声的可能性越大)、频谱通量(量化信号相邻帧之间的变化程度,因此可以用来作为计算音符起始点的特征)。
    (4)乐音特征:基音频率(通常情况下等同于单音信号的音高对应的频率),失谐度(信号的泛音频率与其基因的整数倍频率之间的偏离程度,如果一台琴奏出的单音失谐度非常高,需要调琴)。
    (5) 感知特征:响度(信号强弱,被人耳感知到的主观感觉量,可以被理解为音量),尖锐度(信号的高频部分被人耳感受到的能量,高频部分的能量越大则尖锐度越大)。

虽然MFCC特征作为音频识别的必提取特征,但已有研究者表明MFCC会因分帧处理引起相邻帧谱特征之间相关性被忽略的问题。所以可以用语谱图中的时间点或序列和点位置信息特征对MFCC这一缺点进行补充。
目标:打卡不能停

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值