PLP的由来
Linear prediction可以用来获得语音功率谱
P
(
ω
)
P(\omega)
P(ω)的全极点模型
A
(
ω
)
A(\omega)
A(ω),也可以把LP看做获取
P
(
ω
)
P(\omega)
P(ω)的频谱包络的手段,参考前面的文章
由于LP对待所有频率一视同仁,它不符合人耳的听觉机理,比如人耳对于高于800Hz的感知会下降,对于中间频段更敏感。
为了解决这个问题,Hermansky在进行LP之前修改语音的功率谱
P
(
ω
)
P(\omega)
P(ω),称为perceptual linear predictive。可以理解为更符合听觉感知的LP。
PLP流程
在LP之前修改
P
(
ω
)
P(\omega)
P(ω),需要的步骤见下图
critical-band spectral resolution
首先在频率轴上将Hz转化为Bark,参考bark scale,500Hz以下跟频率近似线性关系,500Hz以上近似log关系
Ω
(
ω
)
=
6
l
n
{
ω
/
1200
π
+
[
(
ω
/
1200
π
)
2
+
1
]
0.5
}
\Omega(\omega)=6ln\{\omega/1200\pi+[(\omega/1200\pi)^2+1]^{0.5}\}
Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}
然后和critial-band masking curve
Ψ
(
Ω
)
\Psi(\Omega)
Ψ(Ω)进行卷积
Θ
(
Ω
i
)
=
∑
Ω
=
−
1.3
2.5
P
(
Ω
−
Ω
i
)
Ψ
(
Ω
)
\Theta(\Omega_i)=\sum_{\Omega=-1.3}^{2.5}P(\Omega-\Omega_i)\Psi(\Omega)
Θ(Ωi)=Ω=−1.3∑2.5P(Ω−Ωi)Ψ(Ω)
equal-loudness preemphasis
为了模拟听觉对于不同频带敏感度的不同,使用equal-loudness curve对频谱进行预加重
Ξ
[
Ω
(
ω
)
]
=
E
(
ω
)
Θ
[
Ω
(
ω
)
]
\Xi[\Omega(\omega)]=E(\omega)\Theta[\Omega(\omega)]
Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)]
其中
E
(
ω
)
E(\omega)
E(ω)如下:
E
(
ω
)
=
[
(
ω
2
+
56.8
∗
1
0
6
)
ω
4
]
/
[
(
ω
2
+
6.3
∗
1
0
6
)
2
∗
(
ω
2
+
0.38
∗
1
0
9
)
]
E(\omega)=[(\omega^2+56.8*10^6)\omega^4]/[(\omega^2+6.3*10^6)^2*(\omega^2+0.38*10^9)]
E(ω)=[(ω2+56.8∗106)ω4]/[(ω2+6.3∗106)2∗(ω2+0.38∗109)]
intensity-loudness power law
为了描述声音强度和感知响度之间的关系
Φ
(
Ω
)
=
Ξ
(
Ω
)
0.33
\Phi(\Omega)=\Xi(\Omega)^{0.33}
Φ(Ω)=Ξ(Ω)0.33
参考
Perceptual linear predictive (PLP) analysis of speech