生成对抗网络GAN(二) 语音相关

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xmdxcsj/article/details/78512905

多任务对抗学习[1]

这里写图片描述
为了获得对噪音的鲁棒性,引入多任务学习,分为三个网络:
- 输入网络(绿色),用作特征提取器
- senone输出网络(红色),用作senone分类
- domain输出网络(蓝色),domain这里指噪音的类型,总共17种噪声

为了增加对噪音的鲁棒性,增加了GRL层(gradient reversal layer),网络在反向传播的时候,对于domain网络过来的梯度取了α,也就是增加噪音分类的错误率,以便获得senone-discriminative domain-invariant的特征。
[2]和[1]的思想类似。

SEGAN[3]

主要用来做语音增强(比如降噪)等。
结合conditional GAN和LSGAN,使用L1norm,最后的loss如下:

minDVLSGAN(D)=12Expdata(x,xc)[(D(x,xc)1)2]+12Excpdata(xc),zpz(z)[D(G(z,xc))2]

minGVLSGAN(G)=12Expdata(xc),zpz(z)[(D(G(z,xc))1)2]+λG(z,x~)x1

一些参数的含义如下:
x: noise speech
xc: clean speech
z: 服从正态分布的noise samples

训练流程如下:
这里写图片描述
训练的时候需要clean speech和noisy speech的pair,以保证在去除噪声的同时保留原始语音的信息。

参考文献

[1].Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition
[2].Invariant Representations for Noisy Speech Recognition
[3].SEGAN: Speech Enhancement Generative Adversarial Network

展开阅读全文

没有更多推荐了,返回首页