Datawhale组队学习活动 Task 3

zhongzhipp

于 2021-04-17 22:55:43 发布

阅读量111

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhongzhipp/article/details/115803493

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本次语音识别学习，主要通过学习基于LSTM的方法进行语音识别。本次主要提取MFCC特征。MFCC特征已经在Task2中说了。本篇主要是根据在学习慕课时候有以为梁贝茨博士曾经专门讲过一节音频特征的课，感觉很有用，所以以下为上课时候自己整理的相关音频特征的笔记。

什么是音频特征？
答：绝大部分音频特征，最初起源于语音识别的任务中，他们可以精简原始的波形采样信号，从而被利用到其他模型中，使算法可以更容易的理解音频中蕴含的语义信息。例如乐器识别，音符起始点检测。
音频特征的分类
答：直接输出VS统计值，瞬态VS全局，抽象程度的高低，提取过程中的差异（例如过零率，它也可以是将音频信号从时域上的波形信号，变换成频域的频谱后提取的特征。可以是需要通过特定模型得到的特征，例如频谱质心：还比如将音品分为乐音与噪音两部分之后，再基于一个部分得到的特征。根据人耳听觉认知的启发，例如梅尔频率倒谱系数即MFCC）。以上4个角度不完全分离，而是相互联系的关系。
常见的音频特征举例
答：
（1）能量特征：均方根能量：信号再一段时间内的能量均值，是一个典型的能量特征。（即可以是时域特征也可以是频域特征）
（2）时域特征：起音时间（音符的能量包络在上升阶段的时长），过零率（信号在一段时间内，通过零点的次数），自相关（信号预期沿时间轴位移后的版本之间的相似度，这个可以用来计算单音的基频）
（3）频域特征：频谱质心（信号的频谱中能量的集中点，可描述信号银色的明亮度，越亮的声音，能量越集中在高频部分，频谱质心的值就越大），频谱平坦度（量化信号与噪声之间相似度的参数，信号的平坦度越大则信号是噪声的可能性越大）、频谱通量（量化信号相邻帧之间的变化程度，因此可以用来作为计算音符起始点的特征）。
（4）乐音特征：基音频率（通常情况下等同于单音信号的音高对应的频率），失谐度（信号的泛音频率与其基因的整数倍频率之间的偏离程度，如果一台琴奏出的单音失谐度非常高，需要调琴）。
（5）感知特征：响度（信号强弱，被人耳感知到的主观感觉量，可以被理解为音量），尖锐度（信号的高频部分被人耳感受到的能量，高频部分的能量越大则尖锐度越大）。

虽然MFCC特征作为音频识别的必提取特征，但已有研究者表明MFCC会因分帧处理引起相邻帧谱特征之间相关性被忽略的问题。所以可以用语谱图中的时间点或序列和点位置信息特征对MFCC这一缺点进行补充。
目标：打卡不能停

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale组队学习活动 Task 3

MFCC提取特征，具体已经在task1说了。其它的音频特征可以分为时域和频域。例如Bark谱，短时过零率，基频，共振峰，能量等。由于人在车上，后续会继续补充的详细音频特征的知识。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。