conformer勘误（自用）

最新推荐文章于 2023-08-30 11:14:41 发布

weixin_43968113

最新推荐文章于 2023-08-30 11:14:41 发布

阅读量181

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_43968113/article/details/129834828

版权

（1）wav等音频格式是怎么处理的。

在实际使用 Conformer 模型进行语音识别时，通常还会进行以下预处理步骤：

音频读取：读取原始音频文件，可以使用 Python 中的 librosa 库、pydub 库等。
预加重处理：通过对音频信号进行预加重处理，可以减小语音信号中低频成分对高频成分的影响，有助于提高语音信号的质量。一般使用一阶高通滤波器实现，可以使用 Python 中的 librosa 库中的 preemphasis() 函数实现。
分帧：将音频信号分成若干个固定长度的帧，一般使用帧长为 20-30ms，帧移为 10ms。可以使用 Python 中的 librosa 库中的 frame() 函数实现。
加窗：对每一帧信号进行加窗处理，以减小帧边界的影响，一般使用汉明窗等窗函数。可以使用 Python 中的 librosa 库中的 window() 函数实现。
傅里叶变换：对每一帧信号进行短时傅里叶变换，将时域信号转换为频域信号。可以使用 Python 中的 librosa 库中的 stft() 函数实现。
取模长平方：对傅里叶变换得到的频域信号，取模长平方得到功率谱，可以使用 Python 中的 np.abs() 函数实现。
Mel滤波器组：将功率谱通过一组 Mel 滤波器进行滤波，得到 Mel 频谱，可以使用 Python 中的 li

关注