一般来说一段音频先是经过傅里叶变换得到spec,然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc,这个过程中feature的维度在不断降低,这就意味着可能会存在信息上的损失。
那么在nn中到底该选哪个作为输入呢?
- DNN做声学模型时,一般用fbank,不用mfcc,因为fbank信息更多 (mfcc是由mel fbank有损变换得到的)。
- mfcc一般是GMM做声学模型时用的,因为通常GMM假设是diagonal协方差矩阵,而cepstral coefficient更符合这种假设。
- linear spectrogram里面冗余信息太多了,维度也高,所以一般都不用。
参考:https://www.zhihu.com/question/269258229