声学特征 PNCC

最新推荐文章于 2022-06-23 17:05:27 发布

xmdxcsj

最新推荐文章于 2022-06-23 17:05:27 发布

阅读量9.5k

点赞数 3

分类专栏：声学模型

本文链接：https://blog.csdn.net/xmdxcsj/article/details/78512604

版权

声学模型专栏收录该内容

20 篇文章 36 订阅

订阅专栏

特点

power-normalized cepstral coefficients相比于MFCC特征：

在噪声和混响场景下提升识别效果，尤其在训练语料是clean语音的时候
相比于MFCC，计算量提升34.6%

使用pncc相比mfcc，噪声和口音测试集可以得到10-15%的相对提升

细节

这里写图片描述
和MFCC/PLP特征的整体对比如上图

filter bank

相比于MFCC的triangular filters，PNCC使用gammatone filters，40维，截止频率分别是200/8000。
这里写图片描述
获得 $P [m, l]$ ,m表示frame，l表示channel

medium-time power calculation

由于噪声的能量变化相比语音慢很多，所以更大的时间窗口可以得到更好的性能，所以对每一帧进行了平滑处理(左右2帧做平均)。
$\bar Q[m,l]=\frac{1}{2M+1}\sum_{m'=m-M}^{m+M}P[m',l]$
得到的 $\bar Q[m,l]$ 用于后面的噪声估计和补偿

asymmetric noise suppression

因为语音的能量相比噪声变化快，所以使用谱减法来过滤掉低频部分以达到抑制噪声的目的。
这里写图片描述
其中的temperal masking的引入可以减弱混响的影响，首先获得每个channel的moving peak，如果某一帧的能量低于这个peak曲线，缩小对应的能量。
获得 $\bar R[m,l]$

spectral weight smoothing

在不同的channel之间做平滑。
$\bar s[m,l]=(\frac{1}{l_2-L_1+1}\sum_{l'=l_1}^{l_2}\frac{\bar R[m,l']}{\bar Q[m,l']})$
其中 $l_2=min(l+N,L)$ ， $L$ 表示channel的个数， $l_1=max(l-N,1)$ ， $N$ 设为4
$\bar S[m,l]$ 通过medium-time power calculation实现了在时间维度上的平滑，通过spectral weight smoothing则实现了在频率维度上的平滑，时域是左右2帧，频域是左右4个channel
最后调制 $P [m, l]$ 得到
$T[m,l]=P[m,l]\bar S[m,l]$

mean power normalization

均值的获取使用online的形式
$\mu[m]=\lambda_{\mu}\mu [m-1]+\frac{1-\lambda_{\mu}}{L}\sum_{l=0}^{L-1}T[m,l]$
归一化以后：
$U[m,l]=k\frac{T[m,l]}{\mu [m]}$
###rate-level nonlinearity
相比于MFCC使用的log非线性函数，PNCC使用指数函数，更符合人耳听觉神经的压缩感知
$V[m,l]=U[m,l]^{1/15}$

参考

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C

后面的技术分享转移到微信公众号上面更新了，【欢迎扫码关注交流】

在这里插入图片描述

xmdxcsj

关注

3
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
声学特征 PNCC

特点power-normalized cepstral coefficients相比于MFCC特征： - 在噪声和混响场景下提升识别效果，尤其在训练语料是clean语音的时候 - 相比于MFCC，计算量提升34.6%使用pncc相比mfcc，噪声和口音测试集可以得到10-15%的相对提升细节和MFCC/PLP特征的整体对比如上图filter bank相比于MFCC的triangular fi
复制链接

扫一扫

专栏目录