语音合成vocoder(四) aperiodicity参数


基本概念

“aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal

它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。

PLANTINUM[1]

使用excitation signal替换aperiodicity
X ( ω ) = Y ( ω ) H ( ω ) X(\omega)=\frac{Y(\omega)}{H(\omega)} X(ω)=H(ω)Y(ω)
首先根据F0标出voiced section,然后 y 2 ( t ) y^2(t) y2(t)最大的点对应加窗的时间点,使用长度为 2 T 0 2T_0 2T0的Hanning窗。
合成语音的时候直接使用求出的 x ( t ) x(t) x(t) h ( t ) h(t) h(t)进行卷积即可。

D4C[4]

D4C需要计算不同频带对应的功率比。

1.计算群延迟

τ g ω = − d ϕ ( ω ) d ω \tau_{g}{\omega}=-\frac{d\phi(\omega)}{d\omega} τgω=dωdϕ(ω)
假设所加窗口的中心点在 τ \tau τ,那么最后求出的群延迟 τ ( ω , τ ) \tau(\omega, \tau) τ(ω,τ) τ \tau τ有关,使用了一些方法消除了参数 τ \tau τ,也就是最后得到的群延迟跟窗口位置无关。

2.修正参数

这里写图片描述
上一步计算加窗会带来频谱上的失真(上图a),这里进行smooth恢复出来原始的信号。
τ g s ( ω ) = 2 ω 0 ∫ − ω 0 4 ω 0 4 τ g ( ω + λ )   d λ \tau_{gs}(\omega)=\frac{2}{\omega_0} \int_{-\frac{\omega_0}{4}}^{\frac{\omega_0}{4}} \tau_g(\omega+\lambda)\, \mathrm{d}\lambda τgs(ω)=ω024ω04ω0τg(ω+λ)dλ
τ g b ( ω ) = 1 ω 0 ∫ − ω 0 2 ω 0 2 τ g s ( ω + λ )   d λ \tau_{gb}(\omega)=\frac{1}{\omega_0} \int_{-\frac{\omega_0}{2}}^{\frac{\omega_0}{2}} \tau_{gs}(\omega+\lambda)\, \mathrm{d}\lambda τgb(ω)=ω012ω02ω0τgs(ω+λ)dλ
τ D = τ g s ( ω ) − τ g b ( ω ) \tau_D=\tau_{gs}(\omega)-\tau_{gb}(\omega) τD=τgs(ω)τgb(ω)

3.估计band-aperiodicity

中心频率 ω c \omega_c ωc对应的时域信号
p ( t , ω c ) = F − 1 [ w ( ω ) τ D ( ω − ( ω c − w l 2 ) ) ] p(t,\omega_c)=\mathscr{F}^{-1}[w(\omega)\tau_{D}(\omega-(\omega_c-\frac{w_l}{2}))] p(t,ωc)=F1[w(ω)τD(ω(ωc2wl))]
w l w_l wl表示窗的长度
p c ( t , ω c ) = 1 − ∫ 0 t p s ( λ , ω c )   d λ p_c(t,\omega_c)=1-\int_{0}^{t} p_s(\lambda, \omega_c)\, \mathrm{d}\lambda pc(t,ωc)=10tps(λ,ωc)dλ
其中 p s p_s ps是由功率谱 ∣ p ∣ 2 |p|^2 p2在时间上按降序排序得到,而且 ∣ p ∣ 2 |p|^2 p2做了归一化
band aperiodicity可得
a p ( ω c ) = − 10 l o g 10 ( p c ( 2 w b w , ω c ) ) ap(\omega_c)=-10log_{10}(p_c(2w_{bw},\omega_c)) ap(ωc)=10log10(pc(2wbw,ωc))
w b w w_{bw} wbw表示窗函数的主瓣宽度。

参考文献

[1].PLATINUM: A method to extract excitation signals for voice synthesis system
[2].D4C, a band-aperiodicity estimator for high-quality speech synthesis

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值