(1)梅尔频率倒谱系数、Mel Spectrogram和梅尔谱的关系
(2)conformer的输入是声学特征,不是原始音频
(3)声音的处理到输入confomer
(1)梅尔频率倒谱系数、Mel Spectrogram和梅尔谱的关系
梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCCs)、Mel Spectrogram和梅尔谱(Mel-Scale Spectrum)都是在语音信号处理中常用的声学特征表示方式。它们之间有些许差别,下面对它们进行对比说明:
-
梅尔谱 梅尔谱是将频率轴上的线性刻度变为梅尔刻度,从而更好地适应人耳的听觉特性,使用 Mel 滤波器组对频谱进行滤波,然后将滤波后的信号进行对数变换得到的频谱。梅尔谱的特点是更加符合人耳的感受特性,能够突出语音信号的共振峰。
-
Mel Spectrogram Mel Spectrogram是将频谱图在频率轴上转换为梅尔刻度,得到的梅尔谱之后,再进行短时傅里叶变换得到的。Mel Spectrogram可以看作是在时间域上对梅尔谱的一种扩展,它表示了音频信号在时间和 Mel 频率域上的能量分布情况。Mel Spectrogram常用于声音分析和语音识别。
-
MFCCs MFCCs是对Mel Spectrogram在频率维度上再次进行离散余弦变换(Discrete Cosine Transform,DCT),得到的一组用于语音特征表达的系数。MFCCs能够有效地压缩声音信息,