LSTM和GRU的对比和分析

最新推荐文章于 2024-08-10 16:48:52 发布

超人欧迪伽

最新推荐文章于 2024-08-10 16:48:52 发布

阅读量1.2w

点赞数 3

分类专栏：深度学习文章标签： LSTM GRU 深度学习 RNN 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiongqinhuo1775/article/details/87112054

版权

LSTM和GRU在捕捉长期依赖性方面表现出色，GRU参数较少，易于收敛，而LSTM在大量数据下可能表现更优。GRU有reset和update门，LSTM则有forget、input和output门。LSTM通过output gate控制信息传递，GRU直接传递。两者均通过加法操作避免梯度消失，改善RNN效果。

摘要由CSDN通过智能技术生成

先给出一些结论：

GRU和LSTM的性能在很多任务上不分伯仲。
GRU 参数更少因此更容易收敛，但是数据集很大的情况下，LSTM表达性能更好。
从结构上来说，GRU只有两个门（update和reset），LSTM有三个门（forget，input，output），GRU直接将hidden state 传给下一个单元，而LSTM则用memory cell 把hidden state 包装起来。

基本结构
1.1 GRU

GRU的设计是为了更好的捕捉long-term dependencies。我们先来看看输入ht−1ht−1和x(t)x(t), GRU怎么通过计算输出h(t)h(t)：
在这里插入图片描述

Reset gate

r(t)r(t) 负责决定h(t−1)h(t−1) 对new memory h^(t)h(t) 的重要性有多大，如果r(t)r(t) 约等于0 的话，h(t−1)h(t−1) 就不会传递给new memory h^(t)h(t)

new memory

h^(t)h(t) 是对新的输入x(t)x(t) 和上一时刻的hidden state h(t−1)h(t−1) 的总结。计算总结出的新的向量h^(t)h(t) 包含上文信息和新的输入x(t)x(t).<

最低0.47元/天解锁文章

超人欧迪伽

关注

3
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。