声学特征 PLP

最新推荐文章于 2025-03-21 14:07:23 发布

xmdxcsj

最新推荐文章于 2025-03-21 14:07:23 发布

阅读量5.5k

点赞数 1

分类专栏：声学模型

本文链接：https://blog.csdn.net/xmdxcsj/article/details/78512568

版权

声学模型专栏收录该内容

20 篇文章

订阅专栏

本文介绍了Perceptual Linear Predictive (PLP)技术，该技术通过调整语音信号的功率谱来更好地模拟人类听觉特性。文章详细阐述了PLP处理流程，包括频率到Bark单位的转换、与临界带掩蔽曲线的卷积、等响度预加重及强度响度幂律变换等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PLP的由来

Linear prediction可以用来获得语音功率谱 $P(\omega)$ 的全极点模型 $A(\omega)$ ，也可以把LP看做获取 $P(\omega)$ 的频谱包络的手段，参考前面的文章
由于LP对待所有频率一视同仁，它不符合人耳的听觉机理，比如人耳对于高于800Hz的感知会下降，对于中间频段更敏感。
为了解决这个问题，Hermansky在进行LP之前修改语音的功率谱 $P(\omega)$ ，称为perceptual linear predictive。可以理解为更符合听觉感知的LP。

PLP流程

在LP之前修改 $P(\omega)$ ，需要的步骤见下图
这里写图片描述

critical-band spectral resolution

首先在频率轴上将Hz转化为Bark，参考bark scale,500Hz以下跟频率近似线性关系，500Hz以上近似log关系
这里写图片描述
$\Omega(\omega)=6ln\{\omega/1200\pi+[(\omega/1200\pi)^2+1]^{0.5}\}$
然后和critial-band masking curve $\Psi(\Omega)$ 进行卷积
$\Theta(\Omega_i)=\sum_{\Omega=-1.3}^{2.5}P(\Omega-\Omega_i)\Psi(\Omega)$

equal-loudness preemphasis

为了模拟听觉对于不同频带敏感度的不同，使用equal-loudness curve对频谱进行预加重
$\Xi[\Omega(\omega)]=E(\omega)\Theta[\Omega(\omega)]$
其中 $E(\omega)$ 如下：
$E(\omega)=[(\omega^2+56.8*10^6)\omega^4]/[(\omega^2+6.3*10^6)^2*(\omega^2+0.38*10^9)]$