1. DNN-HMM语音识别系统
DNN-HMM语音识别系统的训练流程是在我们上一节所学的GMM-HMM语音识别系统的基础上,加上了对齐和DNN训练的方式。其流程图如下图所示:
2. 深度神经网络
首先来了解一些神经网络的相关知识。例如激活函数(Activation Function),NN分类问题损失函数,梯度下降(Gradient Descent)和反向传播(Back Propagation)等。
所谓激活函数,就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。
损失函数可以衡量模型预测的好坏。
梯度下降是机器学习中的常用算法,通过不断迭代计算函数的梯度,判断该点的某一方向和目标之间的距离,最终求得最小的损失函数和相关参数,为建立线性模型提供支持。在NN中为了更好的计算梯度,引出了反向传播算法。
反向传播就是为了实现最优化,省去重复的求导步骤
前馈神经网络FNN
FNN网络结构:(1)FNN可以理解为多层感知机,即:包含多个隐藏层的神经网络。(2)层与层之间是全连接的,即:相邻两层的任意两个节点都有连接,
卷积神经网络CNN
CNN
CNN是一种人工神经网络,CNN的结构可以分为3层:(1)卷积层(Convolutional Layer) - 主要作用是提取特征。(2)池化层(Max Pooling Layer) - 主要作用是下采样(downsampling),却不会损坏识别结果。(3)全连接层(Fully Connected Layer) - 主要作用是分类。
TDNN
TDNN相当于CNN的前身,相当于1dcnn,即一维CNN。它的共享权重被限制在单一的维度上,并且没有池化层,适用于语音和时间序列的信号处理。
循环神经网络RNN
RNN是神经网络的一种。它对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。
LSTM
LSTM是具有记忆长短期信息的能力的神经网络,它具有3个门,分别是遗忘门,输入门和输出门。LSTM提出的动机是为了解决深度学习领域中(尤其是RNN)的长期依赖问题。
混合神经网络
3. 总结
本节内容讲述了神经网络的一些基本点和基本思想,同时也阐述了DNN-HMM语音识别系统及其流程,应同上一节的GMM-HMM语音识别系统放在一起进行对比学习,课下要复习好这两节的内容,非常重要。
4. 作业代码
待完善