第六讲 DNN-HMM模型学习笔记

1. DNN-HMM语音识别系统

 DNN-HMM语音识别系统的训练流程是在我们上一节所学的GMM-HMM语音识别系统的基础上,加上了对齐和DNN训练的方式。其流程图如下图所示:
语音识别系统流程图

训练

解码

2. 深度神经网络

 首先来了解一些神经网络的相关知识。例如激活函数(Activation Function),NN分类问题损失函数,梯度下降(Gradient Descent)和反向传播(Back Propagation)等。
 所谓激活函数,就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。
激活函数
 损失函数可以衡量模型预测的好坏。
损失函数
 梯度下降是机器学习中的常用算法,通过不断迭代计算函数的梯度,判断该点的某一方向和目标之间的距离,最终求得最小的损失函数和相关参数,为建立线性模型提供支持。在NN中为了更好的计算梯度,引出了反向传播算法。
梯度下降
 反向传播就是为了实现最优化,省去重复的求导步骤
在这里插入图片描述

在这里插入图片描述

前馈神经网络FNN

 FNN网络结构:(1)FNN可以理解为多层感知机,即:包含多个隐藏层的神经网络。(2)层与层之间是全连接的,即:相邻两层的任意两个节点都有连接,

在这里插入图片描述

卷积神经网络CNN

CNN

 CNN是一种人工神经网络,CNN的结构可以分为3层:(1)卷积层(Convolutional Layer) - 主要作用是提取特征。(2)池化层(Max Pooling Layer) - 主要作用是下采样(downsampling),却不会损坏识别结果。(3)全连接层(Fully Connected Layer) - 主要作用是分类。

在这里插入图片描述

在这里插入图片描述

TDNN

 TDNN相当于CNN的前身,相当于1dcnn,即一维CNN。它的共享权重被限制在单一的维度上,并且没有池化层,适用于语音和时间序列的信号处理。
在这里插入图片描述

循环神经网络RNN

 RNN是神经网络的一种。它对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。
在这里插入图片描述

LSTM

LSTM是具有记忆长短期信息的能力的神经网络,它具有3个门,分别是遗忘门,输入门和输出门。LSTM提出的动机是为了解决深度学习领域中(尤其是RNN)的长期依赖问题。
在这里插入图片描述

混合神经网络

在这里插入图片描述

3. 总结

 本节内容讲述了神经网络的一些基本点和基本思想,同时也阐述了DNN-HMM语音识别系统及其流程,应同上一节的GMM-HMM语音识别系统放在一起进行对比学习,课下要复习好这两节的内容,非常重要。

4. 作业代码

 待完善

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值