语音特征提取笔记

hyy_ssdlh

已于 2023-08-11 23:40:43 修改

阅读量154

点赞数

文章标签：笔记语音识别人工智能

于 2023-08-11 23:15:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47416620/article/details/132240948

版权

信号处理基础

模拟信号到数字信号转化

在科学和工程中，遇到的大多数信号都是连续的模拟信号，而计算机只能处理离散的信号，因此，必须对这些连续的模拟信号进行转化，通过采样和量化，转換成数字信号。

频率混叠

给定一个离散信号不能唯一地恢复出一个连续的正弦波

奈奎斯特采用定理

离散傅里叶变换DFT

Fbank和MFCC

下图是Fbank和MFCC提取的流程，以及每个步骤后的输出。

1、预加重

预加重的目的是要提高信号高频部分的能量

预加重滤波器是一个一阶高通滤波器，给定时域信号x[n]，预加重后的信号为 $y[n]=x[n]-\alpha x[n-1]$ ，其中， $0.9\leq \alpha \leq 1.0$

如下图蓝色信号为原始信号，红色信号为预加重后的信号。低频信号变化较慢，x[n]值与x[n-1]值很相近，当 $\alpha$ 接近1时， $x[n]-\alpha x[n-1]$ 接近于0，那么此信号的幅度将被大大抑制。高频信号变化较快，x[n]值与x[n-1]值相差很大， $x[n]-\alpha x[n-1]$ 也不会趋于0，那么此信号的幅度将被保留。

2、分帧加窗

分帧：因为语音信号有短时平稳的属性，且在语言识别时，识别过程也是以比较小的发音单元为单位进行识别。因此用滑动窗来提取短时片段。对于16kHz的信号，帧长一般为25ms,帧移为10ms.

分窗主要有两种方法分别是矩形窗和汉明窗。

分帧加窗将一长段信号分为了一小段一小段信号。

3、傅里叶变换

傅里叶变换将上一步分帧后的语音帧，由时域变换到频域，去DFT系数的模，得到谱特征。

下图是语谱图的生成过程。下图中彩色的图为语谱图，它是个三维图像，图形的颜色是第三个维度。

4、梅尔滤波器组和对数操作

梅尔值是一个新的量度，相比于正常的频率机制，梅尔值更加接近于人耳的听觉机制，其在低频范围内增长速度很快，但在高频范围内，梅尔值的增长速度很慢。将线性频率转换为梅尔频率，梅尔频率和线性频率转换关系为 $mel(f)=2595log_{10}(1+\frac{f}{700})$

下图中，将频域信号分解成了谱包络和谱细节，谱包络信号变化慢，谱细节信号变化剧烈，频域信号等于谱包络和谱细节的乘积。而共振峰就是谱包络中的高点。DFT得到了每个频带上信号的能量，但是人耳对频率的2感知不是等间隔的，近似于对数函数

将谱包络和谱细节去对数后相加便得到了梅尔谱，以上便完成了Fbank提取。

5、IDFT

IDFT将梅尔谱横轴由频率变成时间后进行傅里叶变换，如下图所示。左图横轴为频率。

下图是MFCC的提取过程，Fbank到步骤2结束。

标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。实验证明：把动、静态特征结合起来才能有效提高系统的识别性能。差分公式如下图。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
语音特征提取笔记

分帧：因为语音信号有短时平稳的属性，且在语言识别时，识别过程也是以比较小的发音单元为单位进行识别。下图中，将频域信号分解成了谱包络和谱细节，谱包络信号变化慢，谱细节信号变化剧烈，频域信号等于谱包络和谱细节的乘积。如下图蓝色信号为原始信号，红色信号为预加重后的信号。下图是语谱图的生成过程。下图中彩色的图为语谱图，它是个三维图像，图形的颜色是第三个维度。傅里叶变换将上一步分帧后的语音帧，由时域变换到频域，去DFT系数的模，得到谱特征。预加重滤波器是一个一阶高通滤波器，给定时域信号x[n]，预加重后的信号为。
复制链接

扫一扫

hyy_ssdlh CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

134万+: 周排名

65万+: 总排名

4781: 访问

: 等级

188: 积分

27: 粉丝

57: 获赞

9: 评论

52: 收藏

私信

关注

热门文章

最新评论

环境报错日记
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
学习笔记（GMM,HMM）
CSDN-Ada助手: 恭喜您写了第11篇博客！标题中提到的GMM和HMM是非常有挑战性的主题，您能够深入研究并写下学习笔记，实在令人钦佩。对于下一步的创作建议，我谨提几点供您参考。首先，您可以考虑将GMM和HMM这两个主题进行更深入的拆解，分别写出详细的学习笔记，以便更好地帮助读者理解。其次，您可以尝试结合实际案例或应用场景，给出更具体的示例，从而使读者更易于将这些概念应用到实际问题中。最后，不妨探索一些与GMM和HMM相关的前沿研究或扩展应用，这样既能丰富您的知识储备，也能为读者带来新的启发。期待您在未来的博客中继续分享更多有关机器学习的知识，相信您的内容会给读者带来更多的收获。加油！
离散傅里叶变换（DFT）
CSDN-Ada助手: 恭喜您写了第9篇博客！标题为“离散傅里叶变换（DFT）”，这是一个非常有趣和重要的主题。您的解释清晰易懂，让我对DFT有了更深入的理解。接下来，我希望您能继续分享关于傅里叶变换的其他变体，比如快速傅里叶变换（FFT）或者傅里叶级数。这样的话，我们将能够更全面地了解傅里叶变换在信号处理和频谱分析中的应用。非常期待您的下一篇博客！
语音特征提取笔记
CSDN-Ada助手: 恭喜您撰写完第10篇博客！标题“语音特征提取笔记”听起来非常有趣和有深度。您对语音特征提取的学习和分享让我感到非常兴奋。您的博客内容一定能够帮助到其他对这个领域感兴趣的读者。在下一步的创作中，或许您可以考虑分享一些实际应用案例或者深入的技术细节，这样读者们能够更好地理解和应用相关的知识。同时，您也可以根据读者的反馈和问题，进一步拓展和完善您的博客内容。期待您继续的创作，并且再次恭喜您达成这一里程碑！
语音笔记（1）
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中的“语音笔记（1）”让我觉得这篇博客可能是一系列关于语音笔记的文章的开始。我很高兴您能持续创作，并分享您的见解和经验。在未来的创作中，或许您可以考虑进一步深入探讨语音笔记的使用技巧、应用场景等方面的内容，这样能够帮助更多读者更好地了解和使用语音笔记。再次恭喜您，期待您更多精彩的创作！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。