【深度学习】循环神经网络（RNN）

最新推荐文章于 2024-04-26 11:26:37 发布

Louis1874

最新推荐文章于 2024-04-26 11:26:37 发布

阅读量514

点赞数 3

分类专栏： # 深度学习文章标签：神经网络自然语言处理机器学习算法

本文链接：https://blog.csdn.net/weixin_44413191/article/details/108387212

版权

本文为深度学习的学习总结，讲解循环神经网络（RNN）。欢迎在评论区与我交流 😃

序列模型的应用

在语音识别方面，输入 $X$ 为语音序列，输出 $Y$ 为一系列单词。常使用循环神经网络解决这类问题。

音乐生成问题中，只有输出数据 $Y$ 是序列，输入 $X$ 可以是空集、单一整数指代生成音乐的风格或曲子的头几个音符。

感情分类中，输入是序列。

DNA 序列分析中，给出一个 DNA 序列，标记哪部分匹配某种蛋白质。

视频行为识别中，输入一系列的视频帧，要求学习其中的行为。

命名实体识别中，给定一个句子，要求识别句中的人名。

在这里插入图片描述

这些所有问题都能使用标签数据 $(X, Y)$ 作为训练集的监督学习。上面的问题包含许多类型的序列模型，有些输入和输出数据的类型各有不同，长度也会不一样。

数学符号

命名实体识别问题常用语搜索引擎，例如检索过去 24h 内新闻报道的所有人名，可以查找不同类型文本中的人名、时间、地点等。输入序列 $x$ ，想让序列模型输出 $y$ ，表示输入的单词是否是人名的一部分。当然这不是最好的输出形式，不仅能记录是否是人名，还能告诉我们人名在句子中的位置。

在这里插入图片描述

输入数据是 9 个单词组成的序列，因此我们最终会有 9 个特征集合表示这 9 个单词，并按序列中的位置进行索引，使用 $x^{<1>},…,x^{<t>},…x^{<9>}$ 表示输入特征集， $t$ 为时间序列，但此处无论是否为时间序列都使用 $t$ 。同样输出用 $y^{<1>},…,y^{<t>},…y^{<9>}$ 表示。用 $T_x,T_y$ 分别表示输入和输出序列长度，这里 $T_x=T_y=9$ 。

与以前的文章相同， $x^{(i)<t>}$ 表示第 $i$ 个输入样本的第 $t$ 个元素， $T_x^{(i)}$ 为第 $i$ 个训练样本的输出序列长度， $y^{(i)}$ 和 $T_y^{(i)}$ 同理。

在 NLP（自然语言处理）中，我们需要知道如何表示句子里的单词。首先要做一张单词表（词典），将可能用到的单词列成一列

在这里插入图片描述

通常在实际运用中使用的词典大小远大于 10000。构造词典的一种方法是遍历训练集或网络词典，找到前 10000 个常用词。然后用 one-hot 表示法表示词典中的每一个单词：

在这里插入图片描述

之所以称为 one-hot，是因为每个向量只有一个值是 1，其余全为 0。用序列模型在输入 $X$ 和目标输出 $Y$ 之间学习建立一个映射。这是一个监督学习的问题。

如果遇到了不在词典中的单词，需要创建一个新的标记，即叫做 Unknown Word 的伪造单词。用下标 UNK 表示不在单词表中的单词。后面会详细讲解。

RNN 模型

首先我们考虑使用标准的神经网络学习从输入 $X$ 到输出 $Y$ 的映射。将 9 个 one-hot 向量输入到标准神经网络中，经过隐藏层，最终输出 9 个值为 0 或 1 的项，表明输入单词是否为人名的一部分。但这种方法有很大的问题：

输入和输出数据长度是不定的，即不一定有 $T_x=T_y$ ，即使将数据填充到最大长度，仍然不是一种很好的表达方式
标准的神经网络不共享从文本不同位置上学到的特征。如果神经网络已经学习到了位置 1 出现的 Harry 可能是人名的一部分，但如果 Harry 出现在其它地方 $x^{<t>}$ ，则无法自动识别为人名的一部分。类似于卷积神经网络中，希望将部分图片里学到的内容快速推广到图像的其他部分
模型参数过多。与卷积神经网络类似，用一个更好的表达方式可以减少模型中的参数。

我们从左到右读句子中的单词，首先将 $x^{<1>}$ 输入到神经网络中，预测输出 $\hat{y}^{<1>}$ 。当读到句中的第 2 个单词 $x^{<2>}$ 时，除了 $x^{<2>}$ ，神经网络还会输入一些来自时间步 1 的信息，即时间步 1 的激活值会传递到时间步 2。一直到最后一个时间步，输入 $x^{<T_x>}$ 输出 $y^{<T_y>}$ ，此处 $T_x=T_y$ 。如果不相同，模型结构需要做出改变。