语音增强-----互补联合字典学习介绍

YHCANDOU

于 2021-04-24 15:27:55 发布

阅读量664

点赞数 1

分类专栏：语音信号处理文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/yhcwjh/article/details/116081466

版权

语音信号处理专栏收录该内容

10 篇文章 39 订阅

订阅专栏

生成性字典学习

考虑加性噪声情况下，对于单通道语音增强来说，其信号模型可以表示为
$x\left( t \right)=s\left( t \right)+n\left( t \right)$
经过STFT写成幅度谱的表示形式为
$\mathbf{X}=\mathbf{S}+\mathbf{N}$
利用近似K-SVD算法（稀疏表示的算法改为LARC算法）对已有的干净语言训练样本 ${{\mathbf{S}}^{train}}$ 和噪声训练样本 ${{\mathbf{N}}^{train}}$ 进行学习，得到干净语音字典 ${{\mathbf{D}}_{S}}$ 和噪声字典 ${{\mathbf{D}}_{N}}$ ，将其组合成一个总字典 $\mathbf{D}=\left[ {{\mathbf{D}}_{S}},{{\mathbf{D}}_{N}} \right]$ 。
在降噪阶段，对测试带噪语言可以表示为
${{\mathbf{X}}^{test}}=\mathbf{D}\times \mathbf{C}=\left[ {{\mathbf{D}}_{S}},{{\mathbf{D}}_{N}} \right]\times \left[ \begin{matrix} {{\mathbf{C}}_{S}} \\ {{\mathbf{C}}_{N}} \\ \end{matrix} \right]$
因此，利用LARC算法，对带噪语音进行稀疏表示，可以求得其在两个字典上的稀疏表示系数 $\mathbf{C}_{S}^{test}$ 和 $\mathbf{C}_{N}^{test}$ ，从而得到增强后的语音幅度谱
$\mathbf{\hat{S}}={{\mathbf{D}}_{S}}\times \mathbf{C}_{S}^{test}$
对增强后的语音幅度谱 $\mathbf{\hat{S}}$ 乘以带噪信号的相位后进行ISTFT即可增强后的时域语音信号.
具体过程可以表示为
在这里插入图片描述

互补联合字典学习

由于带噪语音和干净语音或者噪声之间存在包含与被包含的关系，即前者与后者存在着一定的映射关系，那么可以考虑基于联合训练字典的方法来进行语音增强。
在训练阶段，将带噪语音和干净语音联合训练
$\underset{{{\mathbf{D}}_{s}},{{\mathbf{D}}_{x1}},{{\mathbf{C}}_{1}}}{\mathop{min}}\,\left\| \mathbf{X}-{{\mathbf{D}}_{x1}}{{\mathbf{C}}_{1}} \right\|_{F}^{2}\text{+}\left\| \mathbf{S}-{{\mathbf{D}}_{s}}{{\mathbf{C}}_{1}} \right\|_{F}^{2}s.t.\text{ }f\left( {{\mathbf{C}}_{1}} \right)\le \mu$
其中 ${{\mathbf{D}}_{x1}}$ 与 ${{\mathbf{D}}_{s}}$ 分别为带噪语音字典和干净语音字典， ${{\mathbf{C}}_{1}}$ 为相同的稀疏表示系数， $f\left( {{\mathbf{C}}_{1}} \right)$ 表示对 ${{\mathbf{C}}_{1}}$ 的稀疏约束， $\mu$ 为稀疏约束阈值。
带噪语音和噪声联合训练
$\underset{{{\mathbf{D}}_{n}},{{\mathbf{D}}_{x2}},{{\mathbf{C}}_{2}}}{\mathop{min}}\,\left\| \mathbf{X}-{{\mathbf{D}}_{x2}}{{\mathbf{C}}_{2}} \right\|_{F}^{2}+\left\| \mathbf{N}-{{\mathbf{D}}_{n}}{{\mathbf{C}}_{2}} \right\|_{F}^{2}s.t.\text{ }f\left( {{\mathbf{C}}_{2}} \right)\le \mu$
${{\mathbf{D}}_{x2}}$ 与 ${{\mathbf{D}}_{n}}$ 分别为带噪语音字典和噪声字典， ${{\mathbf{C}}_{2}}$ 为相同的稀疏表示系数。
更进一步地，可以表示为
$\underset{{{\mathbf{D}}_{s}},{{\mathbf{D}}_{x1}},{{\mathbf{C}}_{1}}}{\mathop{\min }}\,\left\| \left[ \begin{matrix} \mathbf{X} \\ \mathbf{S} \\ \end{matrix} \right]-\left[ \begin{matrix} {{\mathbf{D}}_{x1}} \\ {{\mathbf{D}}_{s}} \\ \end{matrix} \right]{{\mathbf{C}}_{1}} \right\|_{F}^{2}s.t.\text{ }f\left( {{\mathbf{C}}_{1}} \right)\le \mu$
$\underset{{{\mathbf{D}}_{n}},{{\mathbf{D}}_{x2}},{{\mathbf{C}}_{2}}}{\mathop{\min }}\,\left\| \left[ \begin{matrix} \mathbf{X} \\ \mathbf{N} \\ \end{matrix} \right]-\left[ \begin{matrix} {{\mathbf{D}}_{x2}} \\ {{\mathbf{D}}_{n}} \\ \end{matrix} \right]{{\mathbf{C}}_{2}} \right\|_{F}^{2}s.t.\text{ }f\left( {{\mathbf{C}}_{2}} \right)\le \mu$
利用近似K-SVD算法更新字典，利用LARC算法进行稀疏表示，交替迭代求解最终得到两组字典 ${{\mathbf{D}}_{x1}}$ 和 ${{\mathbf{D}}_{s}}$ 、 ${{\mathbf{D}}_{x2}}$ 和 ${{\mathbf{D}}_{n}}$ 。
在增强阶段，用训练得到的两组联合字典 ${{\mathbf{D}}_{x1}}$ 和 ${{\mathbf{D}}_{s}}$ 、 ${{\mathbf{D}}_{x2}}$ 和 ${{\mathbf{D}}_{n}}$ ，我们对测试的带噪语音 ${{\mathbf{X}}^{test}}$ 进行两路的稀疏表示
$\mathbf{E}_{1}^{*}=\arg \underset{{{\mathbf{E}}_{1}}}{\mathop{min}}\,\left\| {{\mathbf{X}}^{test}}-{{\mathbf{D}}_{x1}}{{\mathbf{E}}_{1}} \right\|_{F}^{2}s.t.\text{ }f\left( {{\mathbf{E}}_{1}} \right)\le \mu$
$\mathbf{E}_{2}^{*}=\arg \underset{{{\mathbf{E}}_{2}}}{\mathop{min}}\,\left\| {{\mathbf{X}}^{test}}-{{\mathbf{D}}_{x2}}{{\mathbf{E}}_{2}} \right\|_{F}^{2}s.t.\text{ }f\left( {{\mathbf{E}}_{2}} \right)\le \mu$
那么，可以得到两路信号
$\mathbf{\hat{S}}_{1}^{test}={{\mathbf{D}}_{s}}\mathbf{E}_{1}^{*}$
$\mathbf{\hat{N}}_{2}^{test}={{\mathbf{D}}_{n}}\mathbf{E}_{2}^{*}$
由于考虑的是加性噪声模型，那么
$\mathbf{\hat{N}}_{1}^{test}={{\mathbf{X}}^{test}}-\mathbf{\hat{S}}_{1}^{test}$
$\mathbf{\hat{S}}_{2}^{test}={{\mathbf{X}}^{test}}-\mathbf{\hat{N}}_{2}^{test}$
对两路信号进行加权
${{\mathbf{\hat{S}}}^{test}}=(1-\alpha )\mathbf{\hat{S}}_{1}^{test}+\alpha \mathbf{\hat{S}}_{2}^{test}$
${{\mathbf{\hat{N}}}^{test}}=(1-\alpha )\mathbf{\hat{N}}_{1}^{test}+\alpha \mathbf{\hat{N}}_{2}^{test}$
构造时频域上的维纳滤波器
$\mathbf{M}=\frac{{{\left( {{{\mathbf{\hat{S}}}}^{test}} \right)}^{2}}}{{{\left( {{{\mathbf{\hat{S}}}}^{test}} \right)}^{2}}+{{\left( {{{\mathbf{\hat{N}}}}^{test}} \right)}^{2}}}$
得到增强后的语音幅度谱
${{\mathbf{\tilde{S}}}^{test}}=\mathbf{M}\odot {{\mathbf{X}}^{test}}$
对增强后的语音幅度 $\mathbf{\hat{S}}$ 乘以带噪信号的相位后进行ISTFT即可增强后的时域语音信号。
具体过程可以表示为
在这里插入图片描述
下面对上述几种方法进行仿真，其中加权系数 $\alpha=0$ 时，将其称作为JDL0，加权系数 $\alpha=1$ 时，将其称为JDL1。