信号处理基础
模拟信号到数字信号转化
在科学和工程中,遇到的大多数信号都是连续的模拟信号,而计算机只能处理离散的信号,因此,必须对这些连续的模拟信号进行转化,通过采样和量化,转換成数字信号。
频率混叠
给定一个离散信号不能唯一地恢复出一个连续的正弦波
奈奎斯特采用定理
Fbank和MFCC
下图是Fbank和MFCC提取的流程,以及每个步骤后的输出。
1、预加重
预加重的目的是要提高信号高频部分的能量
预加重滤波器是一个一阶高通滤波器,给定时域信号x[n],预加重后的信号为,其中,
如下图蓝色信号为原始信号,红色信号为预加重后的信号。低频信号变化较慢,x[n]值与x[n-1]值很相近,当接近1时,接近于0,那么此信号的幅度将被大大抑制。高频信号变化较快,x[n]值与x[n-1]值相差很大,也不会趋于0,那么此信号的幅度将被保留。
2、分帧加窗
分帧:因为语音信号有短时平稳的属性,且在语言识别时,识别过程也是以比较小的发音单元为单位进行识别。因此用滑动窗来提取短时片段。对于16kHz的信号,帧长一般为25ms,帧移为10ms.
分窗主要有两种方法分别是矩形窗和汉明窗。
分帧加窗将一长段信号分为了一小段一小段信号。
3、傅里叶变换
傅里叶变换将上一步分帧后的语音帧,由时域变换到频域,去DFT系数的模,得到谱特征。
下图是语谱图的生成过程。下图中彩色的图为语谱图,它是个三维图像,图形的颜色是第三个维度。
4、梅尔滤波器组和对数操作
梅尔值是一个新的量度,相比于正常的频率机制,梅尔值更加接近于人耳的听觉机制,其在低频范围内增长速度很快,但在高频范围内,梅尔值的增长速度很慢。将线性频率转换为梅尔频率,梅尔频率和线性频率转换关系为
下图中,将频域信号分解成了谱包络和谱细节,谱包络信号变化慢,谱细节信号变化剧烈,频域信号等于谱包络和谱细节的乘积。而共振峰就是谱包络中的高点。DFT得到了每个频带上信号的能量,但是人耳对频率的2感知不是等间隔的,近似于对数函数
将谱包络和谱细节去对数后相加便得到了梅尔谱,以上便完成了Fbank提取。
5、IDFT
IDFT将梅尔谱横轴由频率变成时间后进行傅里叶变换,如下图所示。左图横轴为频率。
下图是MFCC的提取过程,Fbank到步骤2结束。
标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分公式如下图。