声音信号的处理(勘误)

本文探讨了梅尔频率倒谱系数、Mel Spectrogram和梅尔谱在语音信号处理中的应用,阐述了Conformer模型的输入是声学特征而非原始音频。详细描述了声音从原始信号到输入Conformer模型的处理过程,包括分帧、声学特征提取等步骤。
摘要由CSDN通过智能技术生成

(1)梅尔频率倒谱系数、Mel Spectrogram和梅尔谱的关系

(2)conformer的输入是声学特征,不是原始音频

(3)声音的处理到输入confomer

(1)梅尔频率倒谱系数、Mel Spectrogram和梅尔谱的关系

梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCCs)、Mel Spectrogram和梅尔谱(Mel-Scale Spectrum)都是在语音信号处理中常用的声学特征表示方式。它们之间有些许差别,下面对它们进行对比说明:

  1. 梅尔谱 梅尔谱是将频率轴上的线性刻度变为梅尔刻度,从而更好地适应人耳的听觉特性,使用 Mel 滤波器组对频谱进行滤波,然后将滤波后的信号进行对数变换得到的频谱。梅尔谱的特点是更加符合人耳的感受特性,能够突出语音信号的共振峰。

  2. Mel Spectrogram Mel Spectrogram是将频谱图在频率轴上转换为梅尔刻度,得到的梅尔谱之后,再进行短时傅里叶变换得到的。Mel Spectrogram可以看作是在时间域上对梅尔谱的一种扩展,它表示了音频信号在时间和 Mel 频率域上的能量分布情况。Mel Spectrogram常用于声音分析和语音识别。

  3. MFCCs MFCCs是对Mel Spectrogram在频率维度上再次进行离散余弦变换(Discrete Cosine Transform,DCT),得到的一组用于语音特征表达的系数。MFCCs能够有效地压缩声音信息,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值