小波分析的一个很重要的特征是具有多分辨率分析,能够在时域、频域表征信号的局部特征。本文采用离散小波分析对语音信号的频谱特征进行分解,分为小波低频系数和小波高频系数,其中,前者可以表征频谱的包络情况,后者则描述频谱的细节成分。然后利用 GMM 模型对小波的低频系数进行转换。在转换阶段,对待转换的语音频谱特征进行多分辨率小波分析,利用训练好的模型对小波低频系数进行转换,而小波的高频系数则保留不变,直接与转换的低频系数相结合用于语音的合成,因为文献(TURK O, ARSLAN L M. Subband based voice conversion[C]. International Conference on Spoken Language Processing(ICSLP))已经证实:对高频系数的转换对于改 善合成语音的质量所起的作用是微不足道的,但是却增加了频谱失真,其原因在于只有少量 的语音信号分量存在于高频部分。这样做,可以很好的改善单独采用 GMM 模型进行语音转 换所引起的过平滑现象。与文献(TURK O, ARSLAN L M. Subband based voice conversion[C]. International Conference on Spoken Language Processing(ICSLP))相比,不同点是:我们是对频谱特征参数 LSF 进行离散小波分析,而非语音信号。
根据 DWT 的理论(STRANG G, NGUYEN T. Wavelets and filter banks[M]. 2nd edition. Wellesley, USA: Wellesley-Cambridge Press)可知,Vj(Vj=Vj-1⊕ Wj-1)空间的信号 x(t)可以表示成子空间 Vj-1 和正交 补子空间 Wj-1 的基函数: