算法学习笔记:长短期记忆网络(Long Short Term Memory Network)---(超详细!原理+结构分析+数学推导+代码)

一、LSTM发展背景

LSTM (Long Short Term Memory Network)首先是由Hochreiter & Schmidhuber(引用文献[Hochreiter, S, and J. Schmidhuber. Long short-term memory. Neural Computation 9.8(1997):1735-1780]于1997年提出,经过了若干代学者(Felix Gers, Fred Cummins, Santiago Fernandez, Justin Bayer, Daan Wierstra, Julian Togelius, Faustino Gomez, Matteo Gagliolo, and Alex Gloves)的发展,由此形成了现在比较系统且完整的LSTM框架;本文所介绍的就是目前深度学习时代的LSTM,它不仅仅在处理序列数据上表现优异,而且能够解决普通循环神经网络(RNN)难以解决的长期依赖问题。

二、LSTM基本结构与原理

2.1 基本原理概述

其实LSTM的基本原理,说复杂确实复杂,说简单也挺简单,可以把它分成三个部分去理解

A:这两个是LSTM的宏观结构(其实就是T个BP神经网络沿着时间轴T排列,然后隐藏层之间的状态(权重参数)可以传递)

1.垂直于时间轴方向的LSTM网络:在每一个时间步上都有一个由输入层--隐藏层--输出层组成的BP神经网络(好吧它其实就是一个简单的BP神经网络啦!)

2.沿时间轴方向的历史信息传递渠道:由隐藏层传递的隐藏层状态h(权重参数矩阵)(跟RNN一样的啦)和细胞状态c(权重参数矩阵)(这就是LSTM的特殊之处啦)(这一步就是LSTM这种循环神经网络能处理长期依赖的时间序列数据的原因之一)

B:这个是LSTM的单元结构

3.单个LSTM单元的结构:LSTM的最关键的功能全在这个小小的单元体内(也就是隐藏层的神经元里),这才是LSTM的精华之所在

下面我们就可以分别研究一下这三个部分:

2.2 LSTM的整体结构(宏观上看)

由下图LSTM的结构图可知:每一个time_steps上都有一个BP神经网络,由输入层+隐藏层+输出层构成,这也就是LSTM结构的关键部分了,我们结合代码进行剖析一下结构:详情可以看注释

这里的模型构建过程,用的是keras构建,这个我之前也不懂,参考的是这位大佬的博客:(已经注明来处,欢迎大家自行前往学习)

LSTM 网络结构剖析(Keras) - 知乎 (zhihu.com)

import tensorflow as tf
from tensorflow import keras
from keras.optimizers import Adam
# 双层单尾lstm
def model_tLSTM_h2(units):
    model = keras.Sequential() #此处便是先建立一个空的Sequential模型,我们将在其中逐步添加层
    #Input Layer
    #这里就是利用keras的layers函数构建模型层
    #keras的好处在于可以清晰显式的定义模型的结构以及各层的激活函数,输入输出格式,以及各种信息
    model.add(keras.layers.LSTM( #你问我为啥这里用LSTM层,下面又是Dense层,我只能跟你说,
                                 #LSTM跟普通ANN的区别就是这个layers.LSTM,LSTM那单元体的精华全在里面了
                                 #普通ANN自然就是直接Dense层就好啦!
        units=units, #定义此层的神经元熟数量
        activation="relu", #定义激活函数,不定义就是默认"tanh",建议是要根据自己的需求和实验结果来定义
     
  • 37
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Prioritized Replay 是 Deep Q-Network (DQN) 中的一种重要改进算法。在传统的 DQN 算法中,模型训练是基于经验回放技术的。简单来说,就是将之前的一些观察和动作的经验随机地从经验池中抽取出来进行训练。但是,这种随机抽样并没有考虑到每个经验的重要性。有些经验虽然出现的次数很少,但是对模型的训练影响很大。因此,如果我们能够对经验进行优先级的排序,就能够更加有效地训练模型。 在 Prioritized Replay 算法中,我们使用了一个优先级队列来对经验进行排序。每个经验的优先级是根据其对模型训练的贡献来计算的。具体来说,每个经验的优先级为: $P_i = |\delta_i| + \epsilon$ 其中 $|\delta_i|$ 表示当前状态下真实 Q 值与估计 Q 值之差的绝对值,$\epsilon$ 是一个很小的常数,避免了某些经验的优先级为 0。这个公式的意思是,我们更倾向于选择那些真实 Q 值与估计 Q 值之差较大的经验进行训练。 在进行经验回放时,我们根据经验的优先级从优先级队列中抽取出经验。我们还需要一个重要的参数 $\alpha$,它表示优先级的重要程度。在优先级队列中,每个经验的优先级 $P_i$ 都会被赋予一个权重 $w_i$,它表示该经验在训练中的重要性。这个权重的计算公式为: $w_i = (\frac{1}{N} \frac{1}{P_i})^{\alpha}$ 其中 $N$ 是经验池中经验的总数,$\alpha$ 是一个参数,控制优先级的重要程度。这个公式的意思是,优先级较高的经验在训练中得到的权重也较高,从而更加有效地更新模型。 需要注意的是,在 Prioritized Replay 算法中,我们对经验进行了优先级排序,但是这并不意味着我们只选择优先级高的经验进行训练。为了保证训练的稳定性,我们还需要引入一个随机因素,以一定的概率从优先级较低的经验中进行抽样。 总之,Prioritized Replay 算法通过对经验进行优先级排序,从而更加有效地训练模型。它是 DQN 算法的一个重要改进,被广泛地应用于深度强化学习领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值