AWD-LSTM为什么这么棒？

阿里云云栖号

于 2018-09-21 10:18:02 发布

阅读量2.2k

点赞数

文章标签：算法神经网络语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yunqiinsight/article/details/82797449

版权

AWD-LSTM是目前最优秀的语言模型之一。在众多的顶会论文中，对字级模型的研究都采用了AWD-LSTMs，并且它在字符级模型中的表现也同样出色。

本文回顾了论文——Regularizing and Optimizing LSTM Language Models ，在介绍AWD-LSTM模型的同时并解释其中所涉及的各项策略。该论文提出了一系列基于词的语言模型的正则化和优化策略。这些策略不仅行之有效，而且能够在不改变现有LSTM模型的基础上使用。

AWD-LSTM即ASGD Weight-Dropped LSTM。它使用了DropConnect及平均随机梯度下降的方法，除此之外还有包含一些其它的正则化策略。我们将在后文详细讲解这些策略。本文将着重于介绍它们在语言模型中的成功应用。

实验代码获取：awd-lstm-lm GitHub repository

LSTM中的数学公式：

it = σ(Wixt + Uiht-1)
ft = σ(Wfxt + Ufht-1)
ot = σ(Woxt + Uoht-1)
c’t = tanh(Wcxt + Ucht-1)
ct = it ⊙ c’t + ft ⊙ c’t-1
ht = ot ⊙ tanh(ct)

其中, Wi, Wf, Wo, Wc, Ui, Uf, Uo, Uc都是权重矩阵，xt表示输入向量，ht表示隐藏单元向量，ct表示单元状态向量， ⊙表示element-wise乘法。
接下来我们将逐一介绍作者提出的策略：

权重下降的LSTM

RNN的循环连接容易导致过拟合问题，如何解决这一问题也成了一个较为热门的研究领域。Dropouts的引入在前馈神经网络和卷积网络中取得了巨大的成功。但将Dropouts引入到RNN中却反响甚微，这是由于Dropouts的加入破坏了RNN长期依赖的能力。

最低0.47元/天解锁文章

阿里云云栖号

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。