CLDNN 模型

最新推荐文章于 2023-05-12 17:43:01 发布

尚歌

最新推荐文章于 2023-05-12 17:43:01 发布

阅读量5.6k

点赞数 1

分类专栏：语音识别人工智能文章标签：机器学习人工智能卷积

本文链接：https://blog.csdn.net/wudibaba21/article/details/108774513

版权

语音识别同时被 2 个专栏收录

33 篇文章

订阅专栏

人工智能

10 篇文章

订阅专栏

本文探讨了语音识别领域中DNN、RNN/LSTM和CNN的发展，特别是CLDNN（卷积-LSTM-全连接深度神经网络）的结构和优势。CLDNN结合了CNN对频域变化的减小、LSTM对时序建模的能力以及DNN的非线性映射，提高了识别性能。实验表明，CLDNN在实时语音识别系统中表现出良好的效果，适用于工业界的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

总结目前语音识别的发展现状，dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年，微软邓力和俞栋老师将前馈神经网络FFDNN（Feed Forward Deep Neural Network）引入到声学模型建模中，将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率，引领了DNN-HMM混合系统的风潮。长短时记忆网络（LSTM，LongShort Term Memory）可以说是目前语音识别应用最广泛的一种结构，这种网络能够对语音的长时相关性进行建模，从而提高识别正确率。双向LSTM网络可以获得更好的性能，但同时也存在训练复杂度高、解码时延高的问题，尤其在工业界的实时识别系统中很难应用。

回顾近一年语音识别的发展，deep cnn绝对称得上是比较火的关键词，很多公司都在这方面投入了大量研究。其实 CNN 被用在语音识别中由来已久，在 12、13 年的时候 Ossama Abdel-Hamid 就将 CNN 引入了语音识别中。那时候的卷积层和 pooling 层是交替出现的，并且卷积核的规模是比较大的，CNN 的层数也并不多，主要是用来对特征进行加工和处理，使其能更好的被用于 DNN 的分类。随着CNN在图像领域的发光发热，VGGNet，GoogleNet和ResNet的应用，为CNN在语音识别提供了更多思路，比如多层卷积之后再接 pooling 层，减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的 CNN 模型。

CLDNN

简单来讲，CNN可以减小频率的偏移变化，LSTM则很适合对时序语音进行建模，DNN就可以对特征进行非线性映射到一个抽象空间进行有效分离。

CLDNN = CNN + LSTM + DNN，根据以往经验是CNN+DNN 优于 DNN，Deep LSTM ≈ CNN + DNN，所以CLDNN也算是一个“自然”的探索。

CNN 相比 DNN 存在计算量过大的问题，所以太深的 CNN 在要求实时解码的ASR场景并不实用；CLDNN = 2 layer CNN + 1 layer LSTM + 2 layer DNN 计算量并不算太大，做到实时解码并不难，业界有些公司上线过 CLDNN 的 ASR 系统。

提到CNN在语音识别中的应用，就不得不提CLDNN（CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS）[1]，在CLDNN中有两层CNN的应用，算是浅层CNN应用的代表。CNN 和 LSTM 在语音识别任务中可以获得比DNN更好的性能提升，对建模能力来说，CNN擅长减小频域变化，LSTM可以提供长时记忆，所以在时域上有着广泛应用，而DNN适合将特征映射到独立空间。而在CLDNN中，作者将CNN，LSTM和DNN串起来融合到一个网络中，获得比单独网络更好的性能。

CLDNN网络的通用结构是输入层是时域相关的特征，连接几层CNN来减小频域变化，CNN的输出灌入几层LSTM来减小时域变化，LSTM最后一层的输出输入到全连接DNN层，目的是将特征空间映射到更容易分类的输出层。之前也有将CNN LSTM和DNN融合在一起的尝试，不过一般是三个网络分别训练，最后再通过融合层融合在一起，而CLDNN是将三个网络同时训练。实验证明，如果LSTM输入更好的特征其性能将得到提高，受到启发，作者用CNN来减小频域上的变化使LSTM输入自适应性更强的特征，加入DNN增加隐层和输出层之间的深度获得更强的预测能力。

实验结果

针对CLDNN结构，我们用自己的中文数据做了一系列实验。实验数据为300h的中文有噪声语音，所有模型输入特征都为40维fbank特征，帧率10ms。模型训练采用交叉熵CE准则，网络输出为2w多个state。由于CNN的输入需要设置l和r两个参数，r设为0，l经过实验10为最优解，后面的实验结果中默认l=10,r=0。

其中LSTM为3层1024个cells，project为512 ，CNN+LSTM和CNN+LSTM+DNN具体的网络参数略有调整，具体如下图，另外还增加一组实验，两层CNN和三层LSTM组合，实验验证增加一层LSTM对结果有提高，但继续增加LSTM的层数对结果没有帮助。

详解卷积神经网络（CNN）在语音识别中的应用