【论文阅读】Recurrent Neural Network Regularization

最新推荐文章于 2025-04-11 17:35:50 发布

野生的野蛮人

最新推荐文章于 2025-04-11 17:35:50 发布

阅读量8.9k

点赞数 9

分类专栏：论文阅读文章标签： rnn lstm 深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_53563701/article/details/122555666

版权

论文阅读专栏收录该内容

8 篇文章

订阅专栏

本来是打算搜搜RNN或者LSTM的原文，结果arxiv上没搜到（求求，帮帮），然后就搜到知乎上一个回答：

心想完蛋，年份跨度比较远的论文读起来会不会很费劲啊。结果搜到LSTM的原论文了（论文链接：https://www.bioinf.jku.at/publications/older/2604.pdf），一看，30页还有好多看不懂的公式与图，就突发感慨：啊，有些知识还是看看二创的比较好，LSTM这种还是果断放弃吧，之后有时间找找比较好的博客之类的看，http://colah.github.io/posts/2015-08-Understanding-LSTMs/这个感觉就不错。

废话说多了。今天看的这个是《Recurrent Neural Network Regularization》，加上参考文献一共就8页，讲的是RNN及其变体怎么进行正则化以防止过拟合的方法。

论文地址：[1409.2329v5] Recurrent Neural Network Regularization (arxiv.org)

以下是正文：

这篇文章的主旨是：dropout最好只用在从当前时间步的输入到输出的连接上，而不应用在递归连接上（即与隐藏状态或者历史信息相关的计算）。

然后，恭喜你已经看完了整个文章。

引言

正则化最常用的一种方法是dropout，但是RNNs却不怎么适合应用dropout（可能是实验的结果），也是因此，RNNs只能使用小网络以避免过拟合，这很大程度上限制了RNN的能力。

这篇文章就是讲作者如何改造应用dropout的方式以帮助RNN从dropout中受益。

正则化LSTM

作者首先贴心地带着我复习了一下RNN和LSTM的基础知识，之后开门见山地讲这篇文章的主要思想：dropout只应用在非递归连接上，用图展示就是：

虚线是应用dropout的连接，实线是不应用dropout的连接。作者下面给出的公式表明，dropout进行mask的对象是每一层的输入向量（有的论文里进行mask的对象是权值矩阵）：

为什么这样呢？我理解作者的意思是：这样做，dropout引入的不确定性不会伤害到整个网络记住过去信息的能力，即关于记忆的部分不会被引入的不确定性影响。换句话说，可以看到，每一个过往的输入与当前的输出的连接都经过了L+1次dropout（L是层数），这个次数是固定的，且不随时间差的改变而改变。而标准的dropout扰乱了递归连接，使得LSTM更难学习存储长期信息。

实验

作者在四种领域里进行实验：language modeling、speech recognition、machine translation、image caption generation。结果的数据就不多赘述了，不过我对作者进行的实验有一些怀疑，因为作者设置的大LSTM与小LSTM的差别只是每一层的单元数不同，但是我想，正常的第一反应不应该是增加层数吗，毕竟相比更宽，更深才是深度学习的主流趋势吧。而且作者进行对比的实验的其他参数设置等没有做到对照实验要求的一致，不太明白为什么。

不过我看作者实验过程提到一句，大概意思是第一个minibatch的初始隐藏状态被初始化为0，此后的minibatch的初始隐藏状态都以上一个minibatch的最后一步的隐藏状态作为初始化。我没想过还能这样玩，学到了，以后可以试试。