#语音信号处理(1)
在基于深度学习的语音增强和语音合成中,语音的预处理部分是十分重要的,在此,结合自己的毕设做一个简单的总结。
语音的预处理
在对语音信号进行分析和处理之前,必须对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。
预加重
预加重,其目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。一般是通过传递函数是一阶FIR高通数字滤波器来实现。设第n时刻的语音采样值为x(n),经过预加重处理后的结果是y(n)=x(n)-ax(n-1),其中a为预加重系数,一般是0.9~1.0之间,通常取0.98。
本人毕设中预加重的实现:`
def emphasis(signal_batch, emph_coeff=0.95, pre=True):
"""
Pre-emphasis or De-emphasis of higher frequencies given a batch of signal.
Args:
signal_batch: batch of signals, represented as numpy arrays
emph_coeff: emphasis coefficient
pre: pre-emphasis or de-emphasis signals
Returns:
result: pre-emphasized or de-emphasized signal batch
"""
result = np.zeros(signal_batch