为什么需要加窗分帧处理
语音信号属于一种非平稳时变信号,其产生过程与发声器官地运动紧密相关,而发声器官地状态速率相对声音振动地速率来说慢很多,因此语音信号可以视为短时平稳信号,因此,对其进行加窗分帧可将语音信号视为一个平稳信号,更便于进行分析
帧长的选择
对于语音信号来说,帧长需要满足两个条件:
从宏观上讲,它必须足够短以保证帧内信号是平稳地,而语音信号地产生与发声器官地运动紧密相关,发声器官的运动是导致信号不平稳地原因,所以在一帧信号间发声器官不能有明显变化,所以一帧地长度应当小于一个音素的长度;正常语速下,音素的持续时间大约是50-200ms,所以帧长一般取为小于50ms;
从微观上分析,一帧语音信号中必须包含足够多的振动周期,因为频域分析是对频率进行分析的,只有足够多的周期才能够分析频率,语音的基频,男声在100Hz左右,女声在200Hz左右,换算为周期就是10ms和5ms,一帧需要包含多个周期,一般取至少20ms;
语音帧加窗
取出来的帧信号在做傅里叶变化之间,需要先进行加窗操作,即与一个窗函数相乘

加窗的目的是让一帧信号的幅度在两端渐变到0,以减少频谱泄露,一般而言常用的窗函

本文探讨了语音信号处理中的加窗分帧技术,包括为何需要加窗分帧,帧长选择的原则,以及如何选取合适的窗函数。窗函数的作用是减少频谱泄露,常见的有矩形窗和汉明窗。窗函数形状和宽度的选择直接影响语音信号的分析效果。此外,还介绍了帧移的重要性,以确保信号分析的连续性和准确性。
最低0.47元/天 解锁文章
2704

被折叠的 条评论
为什么被折叠?



