语音增强———字典学习介绍

语音增强--------------字典学习

字典学习就是用较少的特征(原子)来表示信号,那么信号的多个特征组合就相当于多个原子组成的字典,那么信号就可以用字典中少量的原子进行表示。信号在字典下的表示系数越系数,那么重构信号的质量就越高。常见的字典学习分为:固定字典学习和自适应字典学习,前者没有利用信号的有用信息,所以实际中一般使用的是自适应字典学习

稀疏表示

对于信号 x ( x ∈ R m × 1 ) \mathbf{x}\left( \mathbf{x}\in {{\mathbb{R}}^{m\times 1}} \right) x(xRm×1)来说,其稀疏表示模型为
x = D c + e \mathbf{x=Dc+e} x=Dc+e
其中 D ∈ R m × n \mathbf{D}\in {{\mathbb{R}}^{m\times n}} DRm×n表示原子个数为 n n n,每个原子包含有 m m m个元素的字典,一般取冗余字典,即 n > m n>m n>m c ∈ R n × 1 \mathbf{c}\in {{\mathbb{R}}^{n\times 1}} cRn×1为稀疏表示系数, e ∈ R m × 1 \mathbf{e}\in {{\mathbb{R}}^{m\times 1}} eRm×1为稀疏表示误差,由于字典的冗余性,系数 c \mathbf{c} c不唯一,一般要求解的是最稀疏的 c \mathbf{c} c,求解的过程可以表示为
c ∗ = arg ⁡ min ⁡ c   ∥ x − D c ∥ 2      s . t .    f ( c ) ≤ q {{\mathbf{c}}^{*}}=\arg \underset{\mathbf{c}}{\mathop{\min }}\,{{\left\| \mathbf{x}-\mathbf{Dc} \right\|}_{2}}\ \ \ \ s.t.\ \ f\left( \mathbf{c} \right)\le q c=argcminxDc2    s.t.  f(c)q
或者
c ∗ = arg ⁡ min ⁡ c   f ( c )      s . t .    ∥ x − D c ∥ 2 ≤ ξ {{\mathbf{c}}^{*}}=\arg \underset{\mathbf{c}}{\mathop{\min }}\,f\left( \mathbf{c} \right)\ \ \ \ s.t.\ \ {{\left\| \mathbf{x}-\mathbf{Dc} \right\|}_{2}}\le \xi c=argcminf(c)    s.t.  xDc2ξ
其中, q q q是稀疏表示系数 c \mathbf{c} c的稀疏度约束, ξ \xi ξ是设置的稀疏表示误差阈值, f ( c ) f\left( \mathbf{c} \right) f(c)是对向量 c \mathbf{c} c的稀疏性度量函数,常用的有 l 0 {{l}_{0}} l0 l 1 {{l}_{1}} l1范数。当使用 l 0 {{l}_{0}} l0范数时,目标函数为非凸问题,相应的稀疏表示方法为MP算法和OMP算法。当使用 l 1 {{l}_{1}} l1范数时, 常用的稀疏表示方法有BP算法和LARS算法。

OMP算法

由于求解 l 0 {{l}_{0}} l0范数是NP-Hard的,所以经常采用贪婪追踪的方法来解决这类问题。OMP算法是在MP算法的基础上改进来的,由于MP算法在迭代的时候不能保证信号或者误差在已选择的原子上的投影是正交的,导致每步迭代并不是最优的,为了解决这个问题, OMP算法应运而生。在OMP算法过程中,每步迭代包括:原子选择和系数更新。具体过程为:

Input: x ∈ R m × 1 \mathbf{x}\in {{\mathbb{R}}^{m\times 1}} xRm×1 D ∈ R m × n \mathbf{D}\in {{\mathbb{R}}^{m\times n}} DRm×n, q q q or ξ \xi ξ

Output: c ∈ R n × 1 \mathbf{c}\in {{\mathbb{R}}^{n\times 1}} cRn×1

Initialization:

c ← 0 \mathbf{c}\leftarrow \mathbf{0} c0 e ← x \mathbf{e}\leftarrow \mathbf{x} ex ψ ← { } \psi \leftarrow \{\} ψ{}

while ∥ c ∥ ≤ q \left\| \mathbf{c} \right\|\le q cq and ∥ e ∥ 2 ≥ ξ {{\left\| \mathbf{e} \right\|}_{2}}\ge \xi e2ξ

          μ = D T e \mu ={{\mathbf{D}}^{T}}\mathbf{e} μ=DTe

          j ∗ ← arg ⁡ max ⁡ j   ∣ μ j ∣ , j ∈ ψ c {{j}^{*}}\leftarrow \arg \underset{j}{\mathop{\max }}\,\left| {{\mathbf{\mu }}_{j}} \right|,j\in {{\psi }^{c}} jargjmaxμj,jψc

          ψ ← ψ ∪ { j ∗ } \psi \leftarrow \psi \cup \left\{ {{j}^{*}} \right\} ψψ{j}

          c ψ = arg ⁡ max ⁡ c   ∥ x − D ψ c ∥ 2 , c ψ ← ( D ψ T D ψ ) − 1 D ψ T x {{\mathbf{c}}_{\psi }}=\arg \underset{\mathbf{c}}{\mathop{\max }}\,{{\left\| \mathbf{x}-{{\mathbf{D}}_{\psi }}\mathbf{c} \right\|}_{2}},{{\mathbf{c}}_{\psi }}\leftarrow {{\left( \mathbf{D}_{\psi }^{T}{{\mathbf{D}}_{\psi }} \right)}^{-1}}\mathbf{D}_{\psi }^{T}\mathbf{x} cψ=argcmaxxDψc2,cψ(DψTDψ)1DψTx

          e ← x − D c \mathbf{e}\leftarrow \mathbf{x}-\mathbf{Dc} exDc

end

LARC算法

为了降低 l 0 {{l}_{0}} l0范数的求解难度,将 l 0 {{l}_{0}} l0范数松弛到 l 1 {{l}_{1}} l1范数。LARS算法是求解 l 1 {{l}_{1}} l1范数稀疏表示的有效方法。同样地,该算法也包括了原子选择和系数更新两个步骤。原子选择部分与OMP算法基本相同,在系数更新方面,与OMP算法不同的是,该算法是沿着已选择的字典原子的角平分线上寻找新的字典原子,使得该字典原子与残差的相关性等同于已挑选原子与残差的相关性,再更新相应的步长,直到选择了所有的字典原子或者满足稀疏度或表示误差的要求时终止算法。
后来,有人提出了一种改进的方法,即LARC算法。其主要改进为:定义了Gram矩阵,即 G = D T D \mathbf{G}={{\mathbf{D}}^{T}}\mathbf{D} G=DTD,并在每次迭代过程中采用Cholesky 分解更新该矩阵,避免了重复计算 D ψ T D ψ \mathbf{D}_{\psi }^{T}{{\mathbf{D}}_{\psi }} DψTDψ,从而降低了计算量;提出了采用误差相关阈值 μ \mu μ作为算法的终止条件,减少了不必要的迭代,避免了对观察信号幅值大小的依赖。具体过程为

Input: x ∈ R m × 1 \mathbf{x}\in {{\mathbb{R}}^{m\times 1}} xRm×1 D ∈ R m × n \mathbf{D}\in {{\mathbb{R}}^{m\times n}} DRm×n, G = D T D \mathbf{G}={{\mathbf{D}}^{T}}\mathbf{D} G=DTD, μ \mu μ

Output: c ∈ R n × 1 \mathbf{c}\in {{\mathbb{R}}^{n\times 1}} cRn×1

Initialization:

c ← 0 \mathbf{c}\leftarrow \mathbf{0} c0 y ← 0 \mathbf{y}\leftarrow \mathbf{0} y0 ψ ← { } \psi \leftarrow \{\} ψ{}

μ ( x ) ← D T x {{\mathbf{\mu }}^{\left( \mathbf{x} \right)}}\leftarrow {{\mathbf{D}}^{T}}\mathbf{x} μ(x)DTx μ ( y ) ← 0 {{\mathbf{\mu }}^{\left( \mathbf{y} \right)}}\leftarrow \mathbf{0} μ(y)0

when ∣ ψ ∣ < D \left| \psi \right|<D ψ<D

          μ ← μ ( x ) − μ ( y ) \mathbf{\mu }\leftarrow {{\mathbf{\mu }}^{\left( \mathbf{x} \right)}}-{{\mathbf{\mu }}^{\left( \mathbf{y} \right)}} μμ(x)μ(y)

          j ∗ ← arg ⁡ max ⁡ j   ∣ μ j ∣ , j ∈ ψ c {{j}^{*}}\leftarrow \arg \underset{j}{\mathop{\max }}\,\left| {{\mathbf{\mu }}_{j}} \right|,j\in {{\psi }^{c}} jargjmaxμj,jψc

          ψ ← ψ ∪ { j ∗ } \psi \leftarrow \psi \cup \left\{ {{j}^{*}} \right\} ψψ{j}

         if ∣ μ j ∗ ∣ / ∥ x − y ∥ 2 < μ    {\left| {{\mathbf{\mu }}_{{{j}^{*}}}} \right|}/{{{\left\| \mathbf{x}-\mathbf{y} \right\|}_{2}}<\mu }\; μj/xy2<μ

                       break

         end

          s ← s i g n ( μ ψ ) \mathbf{s}\leftarrow sign\left( {{\mathbf{\mu }}_{\psi }} \right) ssign(μψ)

          g ← G ( ψ , ψ ) − 1 s \mathbf{g}\leftarrow \mathbf{G}_{\left( \psi ,\psi \right)}^{-1}\mathbf{s} gG(ψ,ψ)1s

          b ← ( g T s ) − 1 2 b\leftarrow {{\left( {{\mathbf{g}}^{T}}\mathbf{s} \right)}^{-\frac{1}{2}}} b(gTs)21

          w ← b g \mathbf{w}\leftarrow b\mathbf{g} wbg

          u ← D ( : , ψ ) w \mathbf{u}\leftarrow {{\mathbf{D}}_{\left( :,\psi \right)}}\mathbf{w} uD(:,ψ)w

          a ← G ( : , ψ ) w \mathbf{a}\leftarrow {{\mathbf{G}}_{\left( :,\psi \right)}}\mathbf{w} aG(:,ψ)w

          γ ← min ⁡ k ∈ ψ c + [ ( ∣ μ j ∗ ∣ − ∣ μ k ∣ ) / ( b − a k ) ,    ( ∣ μ j ∗ ∣ + ∣ μ k ∣ ) / ( b + a k )    ] \gamma \leftarrow \min _{k\in {{\psi }^{c}}}^{+}\left[ \begin{matrix} {\left( \left| {{\mathbf{\mu }}_{{{j}^{*}}}} \right|-\left| {{\mathbf{\mu }}_{k}} \right| \right)}/{\left( b-{{a}_{k}} \right),}\; & {\left( \left| {{\mathbf{\mu }}_{{{j}^{*}}}} \right|+\left| {{\mathbf{\mu }}_{k}} \right| \right)}/{\left( b+{{a}_{k}} \right)}\; \\\end{matrix} \right] γminkψc+[(μjμk)/(bak),(μj+μk)/(b+ak)]

          y ← y + γ u \mathbf{y}\leftarrow \mathbf{y}+\gamma \mathbf{u} yy+γu

          c ψ ← c ψ + γ w {{\mathbf{c}}_{\psi }}\leftarrow {{\mathbf{c}}_{\psi }}+\gamma \mathbf{w} cψcψ+γw

          μ ( y ) ← μ ( y ) + γ a {{\mathbf{\mu }}^{\left( \mathbf{y} \right)}}\leftarrow {{\mathbf{\mu }}^{\left( \mathbf{y} \right)}}+\gamma \mathbf{a} μ(y)μ(y)+γa

end

自适应字典学习

字典学习的方法主要分两类:一类是通过预先设置的数学变换来构造字典的固定字典解析方法,包括离散余弦变换、小波变换等,但是该类方法没有利用到信号的特有信息,原子形态比较单一;一类是通过自适应的方式来获取字典,这样字典原子与信号之间有很好的相干性,使得其更加灵活。下面简单地介绍几种自适应字典学习的方法。

K-SVD算法

字典学习的目的就是为了将信号 X ∈ R m × r \mathbf{X}\in {{\mathbb{R}}^{m\times r}} XRm×r近似地分解为字典 D ∈ R m × n \mathbf{D}\in {{\mathbb{R}}^{m\times n}} DRm×n和稀疏表示系数矩阵 C ∈ R n × r \mathbf{C}\in {{\mathbb{R}}^{n\times r}} CRn×r,相应的目标函数为
arg ⁡ min ⁡ D , C   ∥ X − D ⋅ C ∥ F 2 \arg \underset{\mathbf{D},\mathbf{C}}{\mathop{\min }}\,\left\| \mathbf{X}-\mathbf{D}\cdot \mathbf{C} \right\|_{F}^{2} argD,CminXDCF2
从上面可以看出,该优化目标中存在两个未知数,对于该非凸问题,有研究学者提出了交替更新 D \mathbf{D} D C \mathbf{C} C直至算法收敛到局部最优解。固定字典 D \mathbf{D} D,求解稀疏表示系数 C \mathbf{C} C的过程称为稀疏编码或者稀疏表示;固定稀疏表示系数 C \mathbf{C} C,求解字典 D \mathbf{D} D的过程称为字典学习。在K-SVD字典学习中,稀疏表示的方法使用的是OMP算法,字典更新的模型可以表示为
D ← arg ⁡ min ⁡ D   ∥ X − D ⋅ C ∥ F 2 s . t . ∥ d ( : , l ) ∥ 2 = 1 ∀ l = 1 , . . . , n \begin{aligned} & \mathbf{D}\leftarrow \arg \underset{D}{\mathop{\min }}\,\left\| \mathbf{X}-\mathbf{D}\cdot \mathbf{C} \right\|_{F}^{2} \\ & s.t.{{\left\| {{\mathbf{d}}_{\left( :,l \right)}} \right\|}_{2}}=1\forall l=1,...,n \\ \end{aligned} DargDminXDCF2s.t.d(:,l)2=1l=1,...,n
K-SVD在更新字典时,对原子进行逐个更新,同时也有稀疏表示系数的更新。在更新原子时,
∥ X − D ⋅ C ∥ F 2 = ∥ X − ∑ i = 1 n d ( : , i ) c ( i , : ) ∥ F 2 = ∥ ( X − ∑ i ≠ l d ( : , i ) c ( i , : ) ) − d ( : , l ) c ( l , : ) ∥ F 2 = ∥ R ( l ) − d ( : , l ) c ( l , : ) ∥ F 2 \begin{aligned} & \left\| \mathbf{X}-\mathbf{D}\cdot \mathbf{C} \right\|_{F}^{2}\text{=}\left\| \mathbf{X}-\sum\limits_{i=1}^{n}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} \right\|_{F}^{2} \\ & =\left\| \left( \mathbf{X}-\sum\limits_{i\ne l}^{{}}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} \right)-{{\mathbf{d}}_{\left( :,l \right)}}{{\mathbf{c}}_{\left( l,: \right)}} \right\|_{F}^{2} \\ & =\left\| {{\mathbf{R}}^{\left( l \right)}}-{{\mathbf{d}}_{\left( :,l \right)}}{{\mathbf{c}}_{\left( l,: \right)}} \right\|_{F}^{2} \\ \end{aligned} XDCF2=Xi=1nd(:,i)c(i,:)F2=Xi=ld(:,i)c(i,:)d(:,l)c(l,:)F2=R(l)d(:,l)c(l,:)F2
它的主要思想就是将 D ⋅ C \mathbf{D}\cdot \mathbf{C} DC分解成 n n n个秩一的矩阵,使得该稀疏表示误差项最小。在更新第 l l l列的原子 d ( : , l ) {{\mathbf{d}}_{\left( :,l \right)}} d(:,l)时,可以假设第 l l l个原子未知,固定其他 n − 1 n-1 n1列原子,通过最小化上述表达式使得 d ( : , l ) c ( l , υ ) {{\mathbf{d}}_{\left( :,l \right)}}{{\mathbf{c}}_{\left( l,\upsilon \right)}} d(:,l)c(l,υ)不断逼近 R ( : , υ ) ( l ) \mathbf{R}_{\left( :,\upsilon \right)}^{\left( l \right)} R(:,υ)(l)来更新 d ( : , l ) {{\mathbf{d}}_{\left( :,l \right)}} d(:,l),其中 υ = { j ∣ C l , j ≠ 0 , 1 ≤ j ≤ n } \upsilon =\left\{ j|{{C}_{l,j}}\ne 0,1\le j\le n \right\} υ={jCl,j=0,1jn}。具体是对 R ( l ) {{\mathbf{R}}^{\left( l \right)}} R(l)进行SVD分解,将最大奇异值对应的左奇异列向量来更新 d ( : , l ) {{\mathbf{d}}_{\left( :,l \right)}} d(:,l),将其对应的右奇异矩阵的列向量来更新 c ( l , : ) {{\mathbf{c}}_{\left( l,: \right)}} c(l,:)。由于SVD不能保证 c ( l , : ) {{\mathbf{c}}_{\left( l,: \right)}} c(l,:)是稀疏的,但是在SVD过程中仅在非零元空间 υ \upsilon υ内进行,即得到的系数 c ( l , υ ) {{\mathbf{c}}_{\left( l,\upsilon \right)}} c(l,υ)仅仅会更新 c ( l , : ) {{\mathbf{c}}_{\left( l,: \right)}} c(l,:)中对应位置的非零元,最终仍能保证稀疏表示系数的稀疏性。
具体过程为:

Input: X ∈ R m × r \mathbf{X}\in {{\mathbb{R}}^{m\times r}} XRm×r D 0 ∈ R m × n {{\mathbf{D}}_{0}}\in {{\mathbb{R}}^{m\times n}} D0Rm×n q q q or ξ \xi ξ J J J

Output: D \mathbf{D} D C \mathbf{C} C

while j s < J {{j}_{s}}<J js<J:

         Sparse Coding: OMP Algorithm

         Dictionary Updating:

         for l ← 1 l\leftarrow 1 l1 to n n n:

                   d ( : , l ) ← 0 {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow \mathbf{0} d(:,l)0

                   υ = { j ∣ C l , j ≠ 0 , 1 ≤ j ≤ n } \upsilon =\left\{ j|{{C}_{l,j}}\ne 0,1\le j\le n \right\} υ={jCl,j=0,1jn}

                   R ( l ) ← X − ∑ i ≠ l d ( : , i ) c ( i , : ) {{\mathbf{R}}^{\left( l \right)}}\leftarrow \mathbf{X}-\sum\limits_{i\ne l}^{{}}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} R(l)Xi=ld(:,i)c(i,:)

                   R ( : , υ ) ( l ) = U ∑ V T \mathbf{R}_{\left( :,\upsilon \right)}^{\left( l \right)}=\mathbf{U}\sum {{\mathbf{V}}^{T}} R(:,υ)(l)=UVT

                   d ( : , l ) ← U ( : , 1 ) {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow {{\mathbf{U}}_{\left( :,1 \right)}} d(:,l)U(:,1)

                   c ( l , υ ) ← ∑ ( 1 , 1 ) V ( : , 1 ) {{\mathbf{c}}_{\left( l,\upsilon \right)}}\leftarrow \sum \left( 1,1 \right){{\mathbf{V}}_{\left( :,1 \right)}} c(l,υ)(1,1)V(:,1)

         end

j s ← j s + 1 {{j}_{s}}\leftarrow {{j}_{s}}+1 jsjs+1

end

近似K-SVD

由于每次迭代都需要进行SVD,增加了计算的复杂度,为了进一步降低K-SVD算法的复杂度,有学者提出了采用批量正交匹配追踪方法替代SVD 分解来近似完成K-SVD 算法,即
d ( : , l ) ← X c ( l , : ) T − ( ∑ i ≠ l d ( : , i ) c ( i , : ) ) c ( l , : ) T {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow \mathbf{Xc}_{_{\left( l,: \right)}}^{T}-\left( \sum\limits_{i\ne l}^{{}}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} \right)\mathbf{c}_{_{\left( l,: \right)}}^{T} d(:,l)Xc(l,:)Ti=ld(:,i)c(i,:)c(l,:)T
d ( : , l ) ← d ( : , l ) / ∥ d ( : , l ) ∥    2 {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow {{{{{\mathbf{d}}_{\left( :,l \right)}}}/{\left\| {{\mathbf{d}}_{\left( :,l \right)}} \right\|}\;}_{2}} d(:,l)d(:,l)/d(:,l)2
c ( l , : ) ← X T d ( : , l ) − ( ∑ i ≠ l d ( : , i ) c ( i , : ) ) T d ( : , l ) {{\mathbf{c}}_{\left( l,: \right)}}\leftarrow {{\mathbf{X}}^{T}}{{\mathbf{d}}_{\left( :,l \right)}}-{{\left( \sum\limits_{i\ne l}^{{}}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} \right)}^{T}}{{\mathbf{d}}_{\left( :,l \right)}} c(l,:)XTd(:,l)i=ld(:,i)c(i,:)Td(:,l)
从上面可以看出迭代的过程不需要计算 R ( l ) {{\mathbf{R}}^{\left( l \right)}} R(l),将原有的矩阵运算变成了向量的操作,并且不需要进行SVD。具体过程为:

Input: X ∈ R m × r \mathbf{X}\in {{\mathbb{R}}^{m\times r}} XRm×r D 0 ∈ R m × n {{\mathbf{D}}_{0}}\in {{\mathbb{R}}^{m\times n}} D0Rm×n q q q or ξ \xi ξ J J J

Output: D \mathbf{D} D C \mathbf{C} C

while j s < J {{j}_{s}}<J js<J:

         Sparse Coding: OMP Algorithm

         Dictionary Updating:

         for l ← 1 l\leftarrow 1 l1 to n n n:

                   d ( : , l ) ← 0 {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow \mathbf{0} d(:,l)0

                   υ = { j ∣ C l , j ≠ 0 , 1 ≤ j ≤ n } \upsilon =\left\{ j|{{C}_{l,j}}\ne 0,1\le j\le n \right\} υ={jCl,j=0,1jn}

                   d ( : , l ) ← X c ( l , : ) T − ( ∑ i ≠ l d ( : , i ) c ( i , : ) ) c ( l , : ) T {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow \mathbf{Xc}_{_{\left( l,: \right)}}^{T}-\left( \sum\limits_{i\ne l}^{{}}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} \right)\mathbf{c}_{_{\left( l,: \right)}}^{T} d(:,l)Xc(l,:)T(i=ld(:,i)c(i,:))c(l,:)T

                   d ( : , l ) ← d ( : , l ) / ∥ d ( : , l ) ∥    2 {{\mathbf{d}}_{\left( :,l \right)}}\leftarrow {{{{{\mathbf{d}}_{\left( :,l \right)}}}/{\left\| {{\mathbf{d}}_{\left( :,l \right)}} \right\|}\;}_{2}} d(:,l)d(:,l)/d(:,l)2

                   c ( l , : ) ← X T d ( : , l ) − ( ∑ i ≠ l d ( : , i ) c ( i , : ) ) T d ( : , l ) {{\mathbf{c}}_{\left( l,: \right)}}\leftarrow {{\mathbf{X}}^{T}}{{\mathbf{d}}_{\left( :,l \right)}}-{{\left( \sum\limits_{i\ne l}^{{}}{{{\mathbf{d}}_{\left( :,i \right)}}{{\mathbf{c}}_{\left( i,: \right)}}} \right)}^{T}}{{\mathbf{d}}_{\left( :,l \right)}} c(l,:)XTd(:,l)(i=ld(:,i)c(i,:))Td(:,l)

         end

j s ← j s + 1 {{j}_{s}}\leftarrow {{j}_{s}}+1 jsjs+1

end

NMF算法

NMF是在所有矩阵元素非负的约束下的分解方式,在语音信号中对应其幅度谱或者功率谱,如
X = D C \mathbf{X=DC} X=DC
X ∈ R + n × m \mathbf{X}\in \mathbb{R}_{+}^{n\times m} XR+n×m为待分解矩阵, D ∈ R + n × r \mathbf{D}\in \mathbb{R}_{+}^{n\times r} DR+n×r(基矩阵)和 C ∈ R + r × m \mathbf{C}\in \mathbb{R}_{+}^{r\times m} CR+r×m(系数矩阵)为分解后的两个矩阵。一般用距离来衡量两者的相似程度,可以进一步将优化目标写作为
min ⁡ D , C   D α ( X ∣ D C ) \underset{\mathbf{D},\mathbf{C}}{\mathop{\min }}\,{{D}_{\alpha }}\left( \mathbf{X}|\mathbf{DC} \right) D,CminDα(XDC)
其中 D α ( ⋅ ) {{D}_{\alpha }}\left( \centerdot \right) Dα()表示 X \mathbf{X} X D C \mathbf{DC} DC之间的距离
D α ( x ∣ y ) = { 1 α ( α − 1 ) ( x α − y α − α x y α − 1 ( x − y ) ) ,         α ∈ R \ { 0 , 1 } x ( log ⁡ x − log ⁡ y ) + ( y − x ) ,                        α = 1 x y − log ⁡ x y − 1 ,                                         α = 0 {{D}_{\alpha }}\left( x|y \right)\text{=}\left\{ \begin{aligned} & \frac{1}{\alpha }\left( \alpha -1 \right)\left( {{x}^{\alpha }}-{{y}^{\alpha }}-\alpha x{{y}^{\alpha -1}}\left( x-y \right) \right),\ \ \ \ \ \ \ \alpha \in \mathbb{R}\backslash \left\{ 0,1 \right\} \\ & x\left( \log x-\log y \right)+\left( y-x \right),\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha =1 \\ & \frac{x}{y}-\log \frac{x}{y}-1,\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha =0 \\ \end{aligned} \right. Dα(xy)=α1(α1)(xαyααxyα1(xy)),       αR\{0,1}x(logxlogy)+(yx),                      α=1yxlogyx1,                                       α=0
α = 0 \alpha =0 α=0时,对应的是Itakura-Saito距离;当 α = 1 \alpha =1 α=1时,对应的是广义KL散度;当 α = 2 \alpha =2 α=2时,对应的是欧氏距离。一般来说,后两者较为常见。
对于NMF算法的基矩阵和系数矩阵,利用梯度下降可以得到相应的更新过程
C ← C ⊗ D [ ( D C ) α − 2 ⊗ X ] D T ( D C ) α − 1 \mathbf{C}\leftarrow \mathbf{C}\otimes \frac{\mathbf{D}\left[ {{\left( \mathbf{DC} \right)}^{\alpha -2}}\otimes \mathbf{X} \right]}{{{\mathbf{D}}^{T}}{{\left( \mathbf{DC} \right)}^{\alpha -1}}} CCDT(DC)α1D[(DC)α2X]
D ← D ⊗ [ ( D C ) α − 2 ⊗ X ] C T ( D C ) α − 1 C T \mathbf{D}\leftarrow \mathbf{D}\otimes \frac{\left[ {{\left( \mathbf{DC} \right)}^{\alpha -2}}\otimes \mathbf{X} \right]{{\mathbf{C}}^{T}}}{{{\left( \mathbf{DC} \right)}^{\alpha -1}}{{\mathbf{C}}^{T}}} DD(DC)α1CT[(DC)α2X]CT
上式中的所有运算均为元素之间的运算。
同样地,上式更新过程并没有对系数矩阵进行稀疏度的约束,如果增加稀疏度约束,那么相应的目标函数变为
min ⁡ D , C   D α ( X ∣ D C ) + μ ∥ C ∥ 1 \underset{\mathbf{D},\mathbf{C}}{\mathop{\min }}\,{{D}_{\alpha }}\left( \mathbf{X}|\mathbf{DC} \right)\text{+}\mu {{\left\| \mathbf{C} \right\|}_{1}} D,CminDα(XDC)+μC1
相应地,对于系数矩阵的更新则变为
C ← C ⊗ D [ ( D C ) α − 2 ⊗ X ] D T ( D C ) α − 1 + μ \mathbf{C}\leftarrow \mathbf{C}\otimes \frac{\mathbf{D}\left[ {{\left( \mathbf{DC} \right)}^{\alpha -2}}\otimes \mathbf{X} \right]}{{{\mathbf{D}}^{T}}{{\left( \mathbf{DC} \right)}^{\alpha -1}}\text{+}\mu } CCDT(DC)α1+μD[(DC)α2X]
对于单通道语音增强来说,NMF算法是比较简单有效的,但是也存在着一些缺点,比如线性假设,乘法更新的复杂度等等。
选用NMF算法进行语音增强,仿真参数设置如下。

仿真参数设置

参数名称参数值
信噪比10dB
采样率8KHz
SFFT点数512
字典原子个数100

实验结果如下:
在这里插入图片描述
可以看出经过NMF算法处理后的带噪语音有了明显的改善效果,这也说明了该方法的有效性。

关于语音及噪声文件,具体请参考:语音信号处理常用语料库下载地址

参考文献:
[1]罗友. 基于联合字典学习和稀疏表示的语音降噪算法研究[D].中国科学技术大学,2016.
[2]朱媛媛. 基于稀疏表示和深度学习的有监督语音增强算法研究[D].中国科学技术大学,2020.

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
好的,今天我们来学习Python中的字典(Dictionary)。 字典是一种无序的、可变的数据类型,它以键值对(key-value)的形式存储数据,其中键(key)必须是唯一的,而值(value)可以是任意数据类型。字典用花括号{}表示,每个键值对之间用逗号隔开。 下面是一个简单的字典示例: ``` my_dict = {'name': '张三', 'age': 18, 'gender': '男'} ``` 这个字典中,'name'、'age'、'gender'就是键,而'张三'、18、'男'就是相应的值。 可以使用`dict()`函数来创建一个字典,也可以使用`{}`来创建一个空字典。 接下来,我们来看一些常用的字典操作。 1. 访问字典元素 可以通过键来访问字典中的元素,例如: ``` print(my_dict['name']) # 输出:张三 ``` 如果键不存在,则会抛出KeyError异常。 2. 修改字典元素 可以通过键来修改字典中的元素,例如: ``` my_dict['age'] = 20 print(my_dict) # 输出:{'name': '张三', 'age': 20, 'gender': '男'} ``` 3. 添加字典元素 可以通过键来添加字典中的元素,例如: ``` my_dict['address'] = '北京市' print(my_dict) # 输出:{'name': '张三', 'age': 20, 'gender': '男', 'address': '北京市'} ``` 4. 删除字典元素 可以通过键来删除字典中的元素,例如: ``` del my_dict['gender'] print(my_dict) # 输出:{'name': '张三', 'age': 20, 'address': '北京市'} ``` 5. 字典长度 可以使用`len()`函数来获取字典的长度,例如: ``` print(len(my_dict)) # 输出:3 ``` 6. 字典遍历 可以使用`items()`方法来遍历字典中的每一个键值对,例如: ``` for key, value in my_dict.items(): print(key, value) ``` 输出: ``` name 张三 age 20 address 北京市 ``` 通过上述操作,我们可以初步了解字典的基本用法。在实际应用中,字典是非常重要的数据类型,它可以用来存储和处理各种复杂的数据结构。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值