机器学习-循环神经网络入门（一）

weixin_46737548

已于 2022-04-06 15:19:55 修改

阅读量782

点赞数

文章标签：机器学习循环神经网络神经网络深度学习

于 2022-04-05 16:51:59 首次发布

本文链接：https://blog.csdn.net/weixin_46737548/article/details/123966061

版权

本文为循环神经网络的基础文章，读完该篇文章因该会对循环神经网络有一个大概的认识。详细实战代码放在下一节。

使用循环神经网络的原因：

以情感分析为例，最终输出就是一个二分结果，但和图片输入不同的是输入的是文本输入是一个序列，卷积神经网络的效果并不好。

如果用传统的全连接层，对每个单词都经历若干全连接层提取单词的特征，最后再将所有的特征汇总。存在的问题是：如果句子比较长则参数量十分可观，并且由于每个单词连接的全连接层参数彼此不同，因此全连接层子网络只能感受当前词向量的输入，不能整体把握句子，导致整体语义的缺失。

共享权值：网络参数减少，效果变好，但此结构没有考虑序列的先后顺序，即使单词交换了获得的输出也是一样的。

因此提出使用循环神经网络。在t时刻的输入为特征向量输入 $\tiny x_{t}$ 和上一时间戳输出的状态向量 $\small h_{t-1}$

在t时刻的输出为实际输出 $\small o_{t}$ 和向下一时间戳输出的状态向量 $\small h_{t}$ .

关于状态张量的公式为：

需要两个权值矩阵和一个偏置值决定。此时 $\small h_{t}$ 可以直接作为输出即 $\small o_{t}$ ，也可以经由简单的线性变换后输出。

embedding层：

把单词正整数编码变成一个密集向量，向量的元素是由浮点数组成，而不是0/1两个整数。字符不能作为神经网络的输入，输入是数字。embedding层将正整数或者one_hot编码转换为固定大小的向量，向量的每个元素都是浮点数。embedding层一般就用作第一层，为了生成向量。embedding层的输入一般包括：批处理数量（一共多少句话），单句话长度（单词数目）。输出一般包括：批处理数量，单词数目个密集向量，密集向量的长度。密集向量长度在设定embedding层的时候设定，同时设定单词的数目（输入要和这里设置的匹配）。

下面举个例子大家应该能更明白：假设设定embedding层规定：输入范围是0-999共1000个数字，向量长度64，单词个数16；给定输入：1000个数字中取得随机数，批处理数量为32，单词个数为16；得到输出：批处理数量为32，每个句子16个单词，每个单词长度为64。

假如不看批处理数量，我们可以直观用矩阵来表示：输入是one_hot编码，因此长度为1000，共有16个单词，因此是一个16*1000的矩阵，embedding层是输入范围为1000个数字，每个数字长度规定为64，因此是一个1000*64的矩阵，二者相乘得到16*64的矩阵，即每个句子16个单词，每个单词长度为64。相比one_hot编码，节约大量空间。

RNN（循环神经网络）层使用方法：

上述的 $\small h_{t}$ 的计算一般是基于RNNCell来完成的。带Cell层一般是仅完成一个时间戳的前向运算，不带Cell的层也是基于Cell层的，在内部完成了多个时间戳的运算，比较方便。

SimpleRNNCell：简单来说就是代表了一个时间戳的输入输出运算。

一般会定义cell = layers.SimpleRNNCell(64)，这表明经过这个Cell运算后得到的每个单词都是64维的向量。我们在这里要明白，每次对一个Cell的输入不是句子，而是一个单词。一句或很多个单词，依次输入每个Cell中，就是利用序列输入了循环神经网络。此时我们来看输出：由于就一个单词，因此输出是一个[句子数量，单词维度]的矩阵，并且作为状态向量 $\small h_{t}$ 输入到下一个时间戳里面。还要强调一点是，经过循环神经网络一层层Cell最终循环神经网络的输出就是最后一个Cell的输出。

SimpleRNN：单层循环神经网络：layer = layers.SimpleRNN(64)。在此创建了向量长度为64的SimpleRNN层。给定输入，直接调用该神经网络即可。SimpleRNN直接就能完成整个前向运算，默认返回最后一个时间戳上的输出。