声学特征 PLP


PLP的由来

Linear prediction可以用来获得语音功率谱 P ( ω ) P(\omega) P(ω)的全极点模型 A ( ω ) A(\omega) A(ω),也可以把LP看做获取 P ( ω ) P(\omega) P(ω)的频谱包络的手段,参考前面的文章
由于LP对待所有频率一视同仁,它不符合人耳的听觉机理,比如人耳对于高于800Hz的感知会下降,对于中间频段更敏感。
为了解决这个问题,Hermansky在进行LP之前修改语音的功率谱 P ( ω ) P(\omega) P(ω),称为perceptual linear predictive。可以理解为更符合听觉感知的LP。

PLP流程

在LP之前修改 P ( ω ) P(\omega) P(ω),需要的步骤见下图
这里写图片描述

critical-band spectral resolution

首先在频率轴上将Hz转化为Bark,参考bark scale,500Hz以下跟频率近似线性关系,500Hz以上近似log关系
这里写图片描述
Ω ( ω ) = 6 l n { ω / 1200 π + [ ( ω / 1200 π ) 2 + 1 ] 0.5 } \Omega(\omega)=6ln\{\omega/1200\pi+[(\omega/1200\pi)^2+1]^{0.5}\} Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}
然后和critial-band masking curve Ψ ( Ω ) \Psi(\Omega) Ψ(Ω)进行卷积
Θ ( Ω i ) = ∑ Ω = − 1.3 2.5 P ( Ω − Ω i ) Ψ ( Ω ) \Theta(\Omega_i)=\sum_{\Omega=-1.3}^{2.5}P(\Omega-\Omega_i)\Psi(\Omega) Θ(Ωi)=Ω=1.32.5P(ΩΩi)Ψ(Ω)

equal-loudness preemphasis

为了模拟听觉对于不同频带敏感度的不同,使用equal-loudness curve对频谱进行预加重
Ξ [ Ω ( ω ) ] = E ( ω ) Θ [ Ω ( ω ) ] \Xi[\Omega(\omega)]=E(\omega)\Theta[\Omega(\omega)] Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)]
其中 E ( ω ) E(\omega) E(ω)如下:
E ( ω ) = [ ( ω 2 + 56.8 ∗ 1 0 6 ) ω 4 ] / [ ( ω 2 + 6.3 ∗ 1 0 6 ) 2 ∗ ( ω 2 + 0.38 ∗ 1 0 9 ) ] E(\omega)=[(\omega^2+56.8*10^6)\omega^4]/[(\omega^2+6.3*10^6)^2*(\omega^2+0.38*10^9)] E(ω)=[(ω2+56.8106)ω4]/[(ω2+6.3106)2(ω2+0.38109)]

intensity-loudness power law

为了描述声音强度和感知响度之间的关系
Φ ( Ω ) = Ξ ( Ω ) 0.33 \Phi(\Omega)=\Xi(\Omega)^{0.33} Φ(Ω)=Ξ(Ω)0.33

参考

Perceptual linear predictive (PLP) analysis of speech

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值