语音特征提取笔记

信号处理基础

模拟信号到数字信号转化

在科学和工程中,遇到的大多数信号都是连续的模拟信号,而计算机只能处理离散的信号,因此,必须对这些连续的模拟信号进行转化,通过采样和量化,转換成数字信号。

 频率混叠

给定一个离散信号不能唯一地恢复出一个连续的正弦波

奈奎斯特采用定理

 离散傅里叶变换DFT

Fbank和MFCC

下图是Fbank和MFCC提取的流程,以及每个步骤后的输出。

 1、预加重

预加重的目的是要提高信号高频部分的能量

预加重滤波器是一个一阶高通滤波器,给定时域信号x[n],预加重后的信号为y[n]=x[n]-\alpha x[n-1],其中,0.9\leq \alpha \leq 1.0

如下图蓝色信号为原始信号,红色信号为预加重后的信号。低频信号变化较慢,x[n]值与x[n-1]值很相近,当\alpha接近1时,x[n]-\alpha x[n-1]接近于0,那么此信号的幅度将被大大抑制。高频信号变化较快,x[n]值与x[n-1]值相差很大,x[n]-\alpha x[n-1]也不会趋于0,那么此信号的幅度将被保留。

 2、分帧加窗

分帧:因为语音信号有短时平稳的属性,且在语言识别时,识别过程也是以比较小的发音单元为单位进行识别。因此用滑动窗来提取短时片段。对于16kHz的信号,帧长一般为25ms,帧移为10ms.

分窗主要有两种方法分别是矩形窗和汉明窗。

 分帧加窗将一长段信号分为了一小段一小段信号。

3、傅里叶变换

傅里叶变换将上一步分帧后的语音帧,由时域变换到频域,去DFT系数的模,得到谱特征。

下图是语谱图的生成过程。下图中彩色的图为语谱图,它是个三维图像,图形的颜色是第三个维度。

 4、梅尔滤波器组和对数操作

       梅尔值是一个新的量度,相比于正常的频率机制,梅尔值更加接近于人耳的听觉机制,其在低频范围内增长速度很快,但在高频范围内,梅尔值的增长速度很慢。将线性频率转换为梅尔频率,梅尔频率和线性频率转换关系为mel(f)=2595log_{10}(1+\frac{f}{700})

       下图中,将频域信号分解成了谱包络和谱细节,谱包络信号变化慢,谱细节信号变化剧烈,频域信号等于谱包络和谱细节的乘积。而共振峰就是谱包络中的高点。DFT得到了每个频带上信号的能量,但是人耳对频率的2感知不是等间隔的,近似于对数函数

将谱包络和谱细节去对数后相加便得到了梅尔谱,以上便完成了Fbank提取。

5、IDFT

IDFT将梅尔谱横轴由频率变成时间后进行傅里叶变换,如下图所示。左图横轴为频率。

下图是MFCC的提取过程,Fbank到步骤2结束。

标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分公式如下图。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值