第六讲 DNN-HMM模型学习笔记

最新推荐文章于 2024-02-10 18:17:29 发布

handsomeMB

最新推荐文章于 2024-02-10 18:17:29 发布

阅读量2k

点赞数 2

分类专栏：语音识别学习文章标签：学习语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44589825/article/details/126525715

版权

语音识别学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

目录

1. DNN-HMM语音识别系统
2. 深度神经网络
3. 总结
4. 作业代码

1. DNN-HMM语音识别系统

DNN-HMM语音识别系统的训练流程是在我们上一节所学的GMM-HMM语音识别系统的基础上，加上了对齐和DNN训练的方式。其流程图如下图所示：
语音识别系统流程图

2. 深度神经网络

首先来了解一些神经网络的相关知识。例如激活函数（Activation Function），NN分类问题损失函数，梯度下降（Gradient Descent）和反向传播（Back Propagation）等。
所谓激活函数，就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

损失函数可以衡量模型预测的好坏。

梯度下降是机器学习中的常用算法,通过不断迭代计算函数的梯度,判断该点的某一方向和目标之间的距离,最终求得最小的损失函数和相关参数,为建立线性模型提供支持。在NN中为了更好的计算梯度，引出了反向传播算法。

反向传播就是为了实现最优化,省去重复的求导步骤
在这里插入图片描述

前馈神经网络FNN

FNN网络结构：（1）FNN可以理解为多层感知机，即：包含多个隐藏层的神经网络。（2）层与层之间是全连接的，即：相邻两层的任意两个节点都有连接，

在这里插入图片描述

卷积神经网络CNN

CNN

CNN是一种人工神经网络，CNN的结构可以分为3层：（1）卷积层(Convolutional Layer) - 主要作用是提取特征。（2）池化层(Max Pooling Layer) - 主要作用是下采样(downsampling)，却不会损坏识别结果。（3）全连接层(Fully Connected Layer) - 主要作用是分类。

在这里插入图片描述

TDNN

TDNN相当于CNN的前身，相当于1dcnn,即一维CNN。它的共享权重被限制在单一的维度上，并且没有池化层，适用于语音和时间序列的信号处理。
在这里插入图片描述

循环神经网络RNN

RNN是神经网络的一种。它对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，利用了RNN的这种能力，使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。
在这里插入图片描述

LSTM

LSTM是具有记忆长短期信息的能力的神经网络，它具有3个门，分别是遗忘门，输入门和输出门。LSTM提出的动机是为了解决深度学习领域中（尤其是RNN）的长期依赖问题。
在这里插入图片描述

混合神经网络

在这里插入图片描述

3. 总结

本节内容讲述了神经网络的一些基本点和基本思想，同时也阐述了DNN-HMM语音识别系统及其流程，应同上一节的GMM-HMM语音识别系统放在一起进行对比学习，课下要复习好这两节的内容，非常重要。

4. 作业代码

待完善

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
第六讲 DNN-HMM模型学习笔记

第六讲 DNN-HMM模型学习笔记
复制链接

扫一扫

专栏目录

handsomeMB CSDN认证博客专家 CSDN认证企业博客

码龄6年

10: 原创

112万+: 周排名

215万+: 总排名

1万+: 访问

: 等级

138: 积分

7: 粉丝

12: 获赞

7: 评论

54: 收藏

私信

关注

热门文章

分类专栏

语音识别学习 7篇
爬虫 1篇
ACM 2篇

最新评论

语音识别课前准备-kaldi安装流程
handsomeMB: 不影响的
语音识别课前准备-kaldi安装流程
2301_76378354: tools/extras/check_dependencies.sh: python2.7 is installed, but the python2 binary does not exist. Creating a symlink and adding this to tools/env.sh 所以出现这个报警真的不会影响后面吗？
语音识别课前准备-kaldi安装流程
handsomeMB: http://www.openslr.org/resources/1/waves_yesno.tar.gz，全选中这个网址后右键点击，转到该网址，直接就会下载压缩包了
语音识别课前准备-kaldi安装流程
车VS可: 我问题是在跑yesno例子时，无法访问那个网站，那个网站存在安全风险
语音识别课前准备-kaldi安装流程
handsomeMB: 把运行内存分配调大试试，然后编译tools的时候用sudo make -1，虽然慢，但是依赖环境安装好应该会成功。我当初编译的时候也是一直无法成功，后来发现是给虚拟机分配的内存和存储空间都太小了。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。