RNN模型与NLP应用（4）LSTM模型

最新推荐文章于 2023-10-15 19:13:48 发布

@@@龙猫

最新推荐文章于 2023-10-15 19:13:48 发布

阅读量689

点赞数

本文链接：https://blog.csdn.net/weixin_45768308/article/details/127473795

版权

深度学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

自然语言处理

10 篇文章 1 订阅

订阅专栏

前言

这篇主要讲述LSTM的基本过程以及实现代码，LSTM是一种RNN模型，是对Simple RNN的改进
如下图，LSTM有四个参数矩阵
LSTM避免梯度消失问题,可以有更长的记忆 请添加图片描述

LSTM基础知识

传输带记为向量c，解决梯度消失问题，过去的信息通过传输带直接送到下一个时刻，不会发生太多的变化 请添加图片描述
LSTM中有很多Gate,可以有选择的让信息通过
sigmoid函数
sigmoid作用到向量a的每一个元素上，将每一个元素都压到0-1之间
算出f向量之后，计算传输带向量c和遗忘门向量f的Elementwise multiplication

请添加图片描述
遗忘门f
有选择的让传输带c的值通过，假如f的一个元素是0，那么c对应的元素就不能通过对应的输出是0，如果是1，那么c对应的元素全部通过，对应输出是c的本身
在这里插入图片描述
遗忘门
$f_t$ 是上一个状态 $h_{t-1}$ 与当前输入x的函数，状态 $h_{t-1}$ 与输入 $x_t$ 做串联操作得到更高维的向量，然后算矩阵Wf与这个向量的乘积，得到一个向量，再用sigmoid的函数得到向量 $f_t$ 。` $f_t$ 的每一个元素都介于0和1之间。
遗忘门有一个参数矩阵$w_f$,需要通过反向传播从训练数据学习

请添加图片描述
输入门
把旧的状态 $h_{t-1}$ 与新的输入 $x_t$ 做串联，得到更高维的向量然后算矩阵 $W_i$ 与这个向量的乘积得到一个向量，最后再用sigmoid函数得到向量 $i_t$ ， $i_t$ 的每一个元素都介于0和1之间。
在这里插入图片描述
这里的激活函数是双曲正切函数
把旧状态 $h_{t-1}$ ，与新输入xt做串联操作，再乘以参数矩阵。区别在于激活函数不是Sigmoid，而是双曲正切函数 $tan_h$ ，所以算出的向量的元素都介于[-1,1]之间，同时如图可知计算该向量 $c_t’$ 也需要单独的一个参数矩阵，记作 $w_c$

请添加图片描述
更新 $c_t$ 的值
用遗忘门 $f_t$ 和传送带旧的值 $c_{t-1}$ 算Elementwise multiplication
计算输入门 $i_t$ 和新的值 $c_t’$ 的Elementwise multiplication

计算输出门向量 $O_t$
旧的状态 $h_{t-1}$ 与新的输入 $x_t$ 做串联，得到更高维的向量，然后算矩阵 $w_o$ 与这个向量的乘积得到一个向量，最后再用sigmoid函数得到向量 $O_t$
输出门也有自己的参数矩阵 $w_0$

请添加图片描述
计算状态向量 $h_t$
对传输带 $c_t$ 的每一个元素求双曲正切函数，把元素全都压到[-1,1]的区间，然后求这两个向量的Elementwise multiplication

Lstm参数
LSTM有遗忘门，输入门，new value以及输出门，这四个模块都有各自的参数矩阵w,所以一共有四个参数矩阵
请添加图片描述
using keras

总结

请添加图片描述
代码实现
只需将上篇的simple RNN改成LSTM即可
from keras.layers import LSTM, Dense, Embedding

'数据集读取与预处理'
# 此处使用Keras库自带函数进行简洁实现(从零开始实现请看上一节)
# 使用keras的embedding层处理文字数据（同样使用imdb数据集）

from keras.datasets import imdb
from keras import preprocessing

max_feature = 10000  # 词汇量（作为特征的单词个数）
maxlen = 500  # 在500个单词以后截断文本

(input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_feature)
# y_train、y_test分别表示训练集和测试集的标签
# max_words=10000：只考虑数据集中前10000个最常见的单词
print(len(input_train), 'train sequences')
print(len(input_test), 'test sequences')

print('sequence 格式：（samples*time）')
input_train = preprocessing.sequence.pad_sequences(input_train, maxlen=maxlen)
input_test = preprocessing.sequence.pad_sequences(input_test, maxlen=maxlen)
# 此处相当于对齐序列（补0或者阶段评论）
print('input_train shape:', input_train.shape)
print('input_test shape:', input_test.shape)

'定于模型:Simple RNN'
from keras.models import Sequential     # 调入Sequential模型，按顺序搭建神经网络层
from keras.layers import LSTM, Dense, Embedding   # 各种层

'词嵌入操作:降低输入向量维度'
embedding_dim = 32
model = Sequential()
model.add(Embedding(max_feature, embedding_dim, input_length=maxlen))
# 第一层是Embedding层，设定字典里10000个单词，Embedding层的输出是个500×32的矩阵，
# 只考虑每条电影评论中最后的500个单词，每个单词用32维的向量来表示
# 参数矩阵在此的维度是320000，矩阵的参数根据设定的每个单词表示的向量（32）*字典词个数10000得到
'Simple RNN Layer'
state_dim = 32
model.add(LSTM(state_dim, return_state=False))
# return_state=False，不需要存储ht之前的状态

model.add(Dense(1, activation='sigmoid'))
# units ：代表该层的输出维度或神经元个数,此处设定输出的维度为1
# activation=None：激活函数.但是默认 liner

'设定优化算法以及模型评价标准'
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])
# optimizer: 优化器,loss:损失函数,metrics: 评价函数.
# 评价函数的结果不会用于训练过程中,可以传递已有的评价函数名称

'设置训练模型'
history = model.fit(
    input_train, y_train,
    epochs=10,
    batch_size=128,
    validation_split=0.2
)
# input_train:输入数据,y_train:标签,
# batch_size：整数，指定进行梯度下降时每个batch包含的样本数
# epochs：整数，训练终止时的epoch值
# validation_split：0~1之间的浮点数，用来指定训练集的一定比例数据作为验证集
model.summary()
'查看模型最终性能'
loss_and_acc = model.evaluate(input_test, y_test)
print('loss=' + str(loss_and_acc[0]))
print('acc=' + str(loss_and_acc[1]))
#loss=0.3974949774980545
#acc=0.86744