RNN、LSTM、BLSTM、convLSTM之我们如何很好的利用上下文信息

最新推荐文章于 2023-04-30 14:41:00 发布

葛葛葛立鹏啊

最新推荐文章于 2023-04-30 14:41:00 发布

阅读量1.8k

点赞数 1

文章标签：神经网络 tensorflow

本文链接：https://blog.csdn.net/weixin_44929101/article/details/108481492

版权

前言

还是说道我们的老本行文本检测，大家看我的博客可以看出，无非就是文本检测和python。今天我们继续来学习一个对于文本检测比较有用的网络。BLSTM。

神经网络的意义

我们先要说一个概念，首先神经网络这些网络对文本检测的意义是什么，很多小伙伴觉得学习卷积神经网络啊bp神经网络啊，根本就没有什么收益，因为貌似大家觉得一直就训练神魔分类神魔的，根本和文本检测关系不大的。也做不了文本检测。其实神经网络一般被去掉了全连接层然后作为文本检测的特征提取部分，然后一般是后续再加上RPN处理或者特征合并就成为了一个文本检测模型。也就是说学习文本检测神经网络是分不开的。拿CTPN举例子，他就是卷积神经网络提取特征+BLSTM联系上下文（还有其他部分，这里只是强调和神经网络相关部分，详细内容可以看我关于CTPN的博客）。所以说神经网络就是其他模型的积木还是大块的那种，大家还是要好好学习的。

RNN

神经网络确实种类众多，抛却做出的bp不谈，我们最常见的就是卷积神经网络，神经网络一大优势在于权值共享。权值共享大大缩减了参数量。但是RNN似乎在这条路上更加执着。他不再是权值共享而是一直只用相同的权值。让我们看一下结构。
在这里插入图片描述
没错和你想的一样，他一直把上一级的输出当作输入喂回给自己。这都算啊不上权值共享了。因为他只有一个权值，我们只要不断训练更新这块的权值和偏置就可以了。所以他的参数量更加少。但是有一个小问题，什么问题？梯度！众所周知所有的网络训练都依赖于梯度。神经网络的训练好比一辆车，他要找到正确的位置。而梯度就像是油门，你踩大了就冲过了正确点。不踩就不动。而梯度爆炸和梯度消失就对应了这两种情况。至于产生原因，对于卷积神经网络就是因为网络的层数太深，对于RNN就是循环导致的。
讲到这里了我们哈有一点没谈，就是RNN的贡献，RNN可以联系上下文，更加具体的说是把上文信息传给下文。我们都知道一般来说我们比较关注两种特征，CNN关注空间特征，RNN更关注序列特征就是所谓的上下文。这一点更有益于文本检测，毕竟文本是连续的。

LSTM

前面说了RNN的梯度爆炸和消失问题，自然就是要解决他。于是LSTM（长短时记忆网络）出现了。LSTM在RNN基础上的变形，改变了内部计算结构网络，同时增加了记忆单元c，用c来存储之前序列的有用内容，应用到之后的序列中，解决了循环神经网络无法实现长序列的记忆问题。
在这里插入图片描述

如图所示，LSTM仍然是循环结构但是内部结构有所改变，既然梯度爆炸或者消失的原因是因为循环，也就是因为信息的传递，我们就需要选择性一些信息。于是我们把内部结构分为三部分。
遗忘门ft，作用于上一个单元下来的记忆细胞状态c-1，目的是选择性遗忘忘记忆细胞中的信息，就是为了选择有用的，丢弃没用的。
在这里插入图片描述
输入门也是记忆细胞状态目的是将新的信息选择性的记录到记忆细胞中，传向下一级。

输出门是作用于输入和隐层输出。经过输出门后，使得最后输出即包括细胞状态又包括输入,将其结果传到下一个层。
在这里插入图片描述

GRU

这个结构似乎过于复杂，于是一种网络出现了。
在这里插入图片描述
可以看出门被合并了，相对来说简单了一点，但是这并不是我们所满足的。因为有这麽一种情况，我的手机坏了，我打算____一部新手机。如果只看横线前面的词，“手机坏了”，那么“我”是打算“修”还是“买”还是“大哭一场”？我们需要能看到后面的词是“一部新手机“，那么横线上的词填“买“的概率就大得多了。显然对于文字检测，这种情况也依然适用。

BLSTM（双向LSTM）

我的手机坏了，我打算____一部新手机。假设使用LSTM对空白部分填词。如果只看横线前面的词，“手机坏了”，那么“我”是打算“修”还是“买”还是“大哭一场”？双向LSTM能看到后面的词是“一部新手机“，那么横线上的词填“买“的概率就大得多了。在这里插入图片描述
上图就是BLSTM可以看出其他部分没变，只不过加入了反向传播的过程，最终的结果是正反传播的和。

最后

这就是我们所要学习的所有了，希望大家可以喜欢。
最后给大家有一个LSTM的TensorFlow实现代码：

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist=input_data.read_data_sets('MNIST_data/',one_hot=True)

n_inputs=28
max_time=28
Istm_size=100#100个隐藏单元
n_classes=10#10个分类
batch_size=50
n_batch=mnist.train.num_examples//batch_size

x=tf.placeholder(tf.float32,[None,784])
y=tf.placeholder(tf.float32,[None,10])

weights=tf.Variable(tf.truncated_normal([Istm_size,n_classes],stddev=0.1))
biases=tf.Variable(tf.constant(0.1,shape=[n_classes]))

def RNN(X,weihts,biases):
    inputs=tf.reshape(X,[-1,max_time,n_inputs])
    Istm_cell=tf.contrib.rnn.BasicLSTMCell(Istm_size)

    outputs,final_state=tf.nn.dynamic_rnn(Istm_cell,inputs,dtype=tf.float32)
    results=tf.nn.softmax(tf.matmul(final_state[1],weights)+biases)
    return results
prediction=RNN(x,weights,biases)
cross_entropy=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction,labels=y))
train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

init=tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(6):
        for batch in range(n_batch):
            batch_xs,batch_ys=mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        acc=sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print("运行次数  "+str(epoch)+" 准确率 "+str(acc))