深度学习 通俗易懂GRU|门控循环单元(gated recurrent unit, GRU)(4.6)| 下

最近在恶补深度学习基础知识,以下为根据公众号“ 阿力阿哩哩”的《通俗易懂GRU|门控循环单元(gated recurrent unit, GRU)》而总结的内容。可以结合作者在哔哩大学的视频。
这一章看不懂可以去看哔哩大学视频:4.6.3 [6分钟] 通俗易懂GRU
在这里插入图片描述

4.6 RNN与RNN的变种结构

4.6.5 門控循環單元(gated recurrent unit, GRU)

4.6.5节我们了解了LSTM的原理,但大家会觉得LSTM门控网络结构过于复杂与冗余。为此,Cho、van Merrienboer、 Bahdanau和Bengio[1]在2014年提出了GRU门控循环单元,这个结构如图 4.53所示,是对LSTM的一种改进。它将遗忘门和输入门合并成更新门,同时将记忆单元与隐藏层合并成了重置门,进而让整个结构运算变得更加简化且性能得以增强。

当重置门接近于0时,隐藏状态被迫忽略先前的隐藏状态,仅用当前输入进行复位。这有效地使隐藏状态可以丢弃将来以后发现不相关的任何信息,从而允许更紧凑的表示。

另一方面,更新门控制从前一个隐藏状态将有多少信息转移到当前隐藏状态。这类似于LSTM网络 中的记忆单元,并有助于RNN记住长期信息。

由于每个隐藏单元都有单独的重置和更新门,因此每个隐藏单元将学会捕获不同时间范围内的依赖关系。那些学会捕获短期依赖关系的单元将倾向于重置门,而那些捕获长期依赖关系的单元将倾向于更新门。

而且大量的实验证明,GRU在结构上比LSTM简单,参数更少,但在实践中与LSTM的性能却没有明显的差距,甚至可能在某些任务上性能更好,因此也是当前较为流行的一种RNN变种结构。

在这里插入图片描述

在这里插入图片描述
4.6.6 RNN与RNN变种结构小结

好了,到这里,我们就已经将RNN和其变种结构LSTM与GRU的知识点都讲完了。而且我们要知道的是,由于RNN存在梯度爆炸和梯度消失的缺点,现在LSTM和GRU的应用范围会比RNN广阔得多,所以提及RNN,一般指的都是它的变种结构。不过讲了这么多,我们在神经网络框架Keras或者Tensorflow上使用它们也就两三行代码,但是只有当我们熟悉原理,才能更加好地使用它们去完成相应的任务。

当然,笔者在本节所提及的RNN模型只是几种经典的结构,它有各种各样的变种,因此大家需要熟悉它的原理,并在实际工作和学习中结合问题去选择合适的结构,做到具体问题具体分析,切忌死记硬背

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值