图像描述基础

最新推荐文章于 2024-03-16 10:00:00 发布

鹿衔草啊

最新推荐文章于 2024-03-16 10:00:00 发布

阅读量238

点赞数 1

分类专栏：人工智能文章标签： rnn 神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45649258/article/details/124870579

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目录

图像描述

图像描述

1 深度语言模型__

递归神经网络RNN
有2类：
时间递归神经网络（Recurrent Neural Network）：针对时间序列
结构递归神经网络（Recursive Neural Network）：针对树状结构
优化方法：时序后向传播（Back propagation through time
长时记忆/递归深度问题:梯度爆炸（Gradient exploding）→梯度剪切;梯度消失（Gradient vanishing）→特殊设计

2 RNN的应用

基于RNN语言模型。我们首先把词依次输入到循环神经网络中，每输入一个词，循环神经网络就输出截止到目前为止，下一个最可能的词。
在这里插入图片描述

语言模型是对下一个词出现的概率进行建模。怎样让神经网络输出概率呢？用softmax层作为神经网络的输出层。

3 朴素Vanilla-RNN

单层神经网络在时间上的扩展；t-1时刻的隐层状态（Hidden state）会参与t时刻输出的计算；严重的梯度消失问题
在这里插入图片描述

关键：Hidden Layer会有连向下一时间Hidden Layer的边，是全连接
在这里插入图片描述

还有一种结构时Bidirectional Networks,也就是说会有来自下一时间的Hidden Layer传回来的边。

4 时序后向传播（BPTT）

传统后向传播（BP）在时间序列上的扩展
t时刻的梯度是前t-1时刻所有梯度的累积
时间越长，梯度消失越严重
在这里插入图片描述

BPTT算法是针对循环层的训练算法，它的基本原理和BP算法是一样的，也包含同样的三个步骤∶
前向计算每个神经元的输出值;反向计算每个神经元的误差项值δ，它是误差函数E对神经元j的加权输入的偏导数net;计算每个权重的梯度。
最后再用随机梯度下降算法更新权重。

5 Vanilla-RNN vs LSTM

在这里插入图片描述

6 LSTM

6.1 LSTM数学模型

3个输入：
前一时刻的隐含状态h(t-1);
前一时刻的记忆状态C（t-1）；
当前时刻的输入Vt;
2个输出：
当前时刻的隐含状态h（t）；
当前时刻的记忆状态C（t）；
在这里插入图片描述

6.2 LSTM控制门作用

在这里插入图片描述

6.3 LSTM结构图

在这里插入图片描述

记忆状态->信息：存储之前时刻的信息；避免长时记忆问题的核心。
控制门->选择性控制信息流入：由元素乘操作实现；配有sigmoid激活函数的神经层；值域[0,1],0不通过任何信息，1通过所有信息。
在这里插入图片描述

忘记门：
决定前一时刻中多少记忆状态被移除；
Sigmoid激活；
2个输入：前一时刻的隐含状态h(t-1),当前时刻的输入Xt
在这里插入图片描述

输入门：
决定当前时刻有多少新输入信息需要存入记忆状态；
Sigmoid激活；
2个输入：前一时刻的隐含状态h（t-1),当前时刻的输入Xt
在这里插入图片描述

输入调制：
决定当前时刻有多少新输入信息需要存入记忆状态；
Tanh激活；
2个输入：前一时刻的隐含状态h(t-1),当前时刻的输入Xt
在这里插入图片描述

记忆状态更新：
选择性移除前一时刻态的旧信息（记忆状态）；
选择性添加当前时刻的新信息（调制输入）
在这里插入图片描述

输出门：
决定当前时刻多少记忆状态用于输出；
2个输入：前一时刻的隐含状态h(t-1),当前时刻的输入Xt；
2个激活：Tanh激活；Sigmoid激活
在这里插入图片描述

7 LSTM vs GRU

LSTM
模型复杂，参数多，拟合能力强；
数据要求：大规模、复杂度高；
GRU
模型精简，参数少，拟合能力相对弱；
适用于偏小规模、不是很复杂的数据；

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
图像描述基础

目录图像描述1 深度语言模型__2 RNN的应用3 朴素Vanilla-RNN4 时序后向传播（BPTT）5 Vanilla-RNN vs LSTM6 LSTM6.1 LSTM数学模型6.2 LSTM控制门作用6.3 LSTM结构图7 LSTM vs GRU图像描述1 深度语言模型__递归神经网络RNN有2类：时间递归神经网络（Recurrent Neural Network）：针对时间序列结构递归神经网络（Recursive Neural Network）：针对树状结构优化方法：时序后向传播
复制链接

扫一扫

专栏目录

鹿衔草啊 CSDN认证博客专家 CSDN认证企业博客

码龄5年

99: 原创

31万+: 周排名

77万+: 总排名

9万+: 访问

: 等级

1026: 积分

46: 粉丝

28: 获赞

16: 评论

216: 收藏

私信

关注

热门文章

分类专栏

人工智能 3篇
深度学习 1篇

最新评论

肺部图像识别案例
鹿衔草啊: 这是我买的课，我花钱了，有资格用，这也是老师让这样写的，你不愿意看可以不看
肺部图像识别案例
cc8620: 偷别人东西你真好意思
手把手教你爬取网站信息
CSDN-Ada助手: 亲爱的博主，我真的非常欣赏和感激你用心撰写了这篇“手把手教你爬取网站信息”的博客。明白教授网站爬取技巧并不是一件容易的事情，你耐心而详细的解释让我对这个话题有了更深入的了解。你的用心和付出真的能够让读者受益匪浅。鉴于你的出色表现，我非常期待你下一篇可能创作的博客！我希望你可以写一篇关于如何分析和利用爬取到的数据的文章。我相信你的经验和见解可以在这个领域里为读者提供一些具有实际应用意义的技巧和方法。期待读到你的下一篇精彩分享！
机器学习-sklearn第一天——笔记
dtmyjt: 学长好，有个小问题想问一下，就是在您的倒数第二块和倒数第三块代码块中，您首先将整份样本固定划分为训练集和测试集，其中测试集占30%是ok的。再到后面的交叉验证部分就有点晕了感觉，正常流程的话我觉得应该是在训练集（70%）中进行K折交叉验证吧。。。（即70%中的9份进行train，1份进行validation，求一个train_score均值和test_score均值作为当前参数下的模型评分），而您好像每次都是拿固定的X_train和y_train在fit，交叉验证时却是把整体的样本X,y传入进行交叉验证，那么测试样本（30%）不是也有机会被fit了嘛...（来自机器学习小白的疑问
神经网络与误差反向传播算法
鹿衔草啊:

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。