[语音处理] 声谱图（spectrogram）FBank（Mel_spectrogram）MFCC(Mel倒谱)到底用哪个作为NN输入？

最新推荐文章于 2024-05-22 17:16:11 发布

ASR_THU

最新推荐文章于 2024-05-22 17:16:11 发布

阅读量5.5k

点赞数 6

分类专栏：语音处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zongza/article/details/88973176

版权

语音处理专栏收录该内容

14 篇文章 2 订阅

订阅专栏

一般来说一段音频先是经过傅里叶变换得到spec，然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc，这个过程中feature的维度在不断降低，这就意味着可能会存在信息上的损失。

那么在nn中到底该选哪个作为输入呢？

DNN做声学模型时，一般用fbank，不用mfcc，因为fbank信息更多 (mfcc是由mel fbank有损变换得到的）。
mfcc一般是GMM做声学模型时用的，因为通常GMM假设是diagonal协方差矩阵，而cepstral coefficient更符合这种假设。
linear spectrogram里面冗余信息太多了，维度也高，所以一般都不用。

参考：https://www.zhihu.com/question/269258229

关注

6
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
[语音处理] 声谱图（spectrogram）FBank（Mel_spectrogram）MFCC(Mel倒谱)到底用哪个作为NN输入？

一般来说一段音频先是经过傅里叶变换得到spec，然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc，这个过程中feature的维度在不断降低，这就意味着可能会存在信息上的损失。那么在nn中到底该选哪个作为输入呢？DNN做声学模型时，一般用fbank，不用mfcc，因为fbank信息更多 (mfcc是由mel fbank有损变换得到的）。 mfcc一般是GMM做声学模型时用的，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。