基本概念
“aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal
它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。
PLANTINUM[1]
使用excitation signal替换aperiodicity
X
(
ω
)
=
Y
(
ω
)
H
(
ω
)
X(\omega)=\frac{Y(\omega)}{H(\omega)}
X(ω)=H(ω)Y(ω)
首先根据F0标出voiced section,然后
y
2
(
t
)
y^2(t)
y2(t)最大的点对应加窗的时间点,使用长度为
2
T
0
2T_0
2T0的Hanning窗。
合成语音的时候直接使用求出的
x
(
t
)
x(t)
x(t)和
h
(
t
)
h(t)
h(t)进行卷积即可。
D4C[4]
D4C需要计算不同频带对应的功率比。
1.计算群延迟
τ
g
ω
=
−
d
ϕ
(
ω
)
d
ω
\tau_{g}{\omega}=-\frac{d\phi(\omega)}{d\omega}
τgω=−dωdϕ(ω)
假设所加窗口的中心点在
τ
\tau
τ,那么最后求出的群延迟
τ
(
ω
,
τ
)
\tau(\omega, \tau)
τ(ω,τ)跟
τ
\tau
τ有关,使用了一些方法消除了参数
τ
\tau
τ,也就是最后得到的群延迟跟窗口位置无关。
2.修正参数
上一步计算加窗会带来频谱上的失真(上图a),这里进行smooth恢复出来原始的信号。
τ
g
s
(
ω
)
=
2
ω
0
∫
−
ω
0
4
ω
0
4
τ
g
(
ω
+
λ
)
d
λ
\tau_{gs}(\omega)=\frac{2}{\omega_0} \int_{-\frac{\omega_0}{4}}^{\frac{\omega_0}{4}} \tau_g(\omega+\lambda)\, \mathrm{d}\lambda
τgs(ω)=ω02∫−4ω04ω0τg(ω+λ)dλ
τ
g
b
(
ω
)
=
1
ω
0
∫
−
ω
0
2
ω
0
2
τ
g
s
(
ω
+
λ
)
d
λ
\tau_{gb}(\omega)=\frac{1}{\omega_0} \int_{-\frac{\omega_0}{2}}^{\frac{\omega_0}{2}} \tau_{gs}(\omega+\lambda)\, \mathrm{d}\lambda
τgb(ω)=ω01∫−2ω02ω0τgs(ω+λ)dλ
τ
D
=
τ
g
s
(
ω
)
−
τ
g
b
(
ω
)
\tau_D=\tau_{gs}(\omega)-\tau_{gb}(\omega)
τD=τgs(ω)−τgb(ω)
3.估计band-aperiodicity
中心频率
ω
c
\omega_c
ωc对应的时域信号
p
(
t
,
ω
c
)
=
F
−
1
[
w
(
ω
)
τ
D
(
ω
−
(
ω
c
−
w
l
2
)
)
]
p(t,\omega_c)=\mathscr{F}^{-1}[w(\omega)\tau_{D}(\omega-(\omega_c-\frac{w_l}{2}))]
p(t,ωc)=F−1[w(ω)τD(ω−(ωc−2wl))]
w
l
w_l
wl表示窗的长度
p
c
(
t
,
ω
c
)
=
1
−
∫
0
t
p
s
(
λ
,
ω
c
)
d
λ
p_c(t,\omega_c)=1-\int_{0}^{t} p_s(\lambda, \omega_c)\, \mathrm{d}\lambda
pc(t,ωc)=1−∫0tps(λ,ωc)dλ
其中
p
s
p_s
ps是由功率谱
∣
p
∣
2
|p|^2
∣p∣2在时间上按降序排序得到,而且
∣
p
∣
2
|p|^2
∣p∣2做了归一化
band aperiodicity可得
a
p
(
ω
c
)
=
−
10
l
o
g
10
(
p
c
(
2
w
b
w
,
ω
c
)
)
ap(\omega_c)=-10log_{10}(p_c(2w_{bw},\omega_c))
ap(ωc)=−10log10(pc(2wbw,ωc))
w
b
w
w_{bw}
wbw表示窗函数的主瓣宽度。
参考文献
[1].PLATINUM: A method to extract excitation signals for voice synthesis system
[2].D4C, a band-aperiodicity estimator for high-quality speech synthesis