GRU学习理解

最新推荐文章于 2024-06-19 16:36:01 发布

xk_005

最新推荐文章于 2024-06-19 16:36:01 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/xiaokan_001/article/details/105174719

版权

深度学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

一般RNN模型是
a^<t> = g(W_a[a^<t-1>,x^<t>] + b_a)
g是激活函数，一般用Tanh函数。图可表示为：
在这里插入图片描述
而简化的GRU主要是为了解决在深层RNN神经网络中的梯度消失问题以及提供前后记忆能力，例如，The cat,which already ate…,was full.和The cats,which already ate…,were full.如何让网络知道我们用的是was还were，因此就需要一个参数c表示记忆细胞，此时可以认为c^t = a^t。则GRU公式可表示为：
$\widetilde{c}$ ^t = Tanh(W_c[c^<t-1>,x^<t>] + b_a)
$\Gamma$ _u = $\sigma$ (W_u[c^<t-1>,x^<t>] + b_u)
c^t = $\Gamma$ _u * $\widetilde{c}$ ^t + (1 - $\Gamma$ _u) * c^<t-1>
可用简单图表示：
在这里插入图片描述
其中 $\widetilde{c}$ ^t是一个候选值，暂时代替c^t，而 $\Gamma$ _u是一个GRU中一个重要思想，就是门，u代表更新门，即表示c的值是否更新，此值在0-1之间，因为经过sigmod函数。显然在第3个式子中可以看到表示当 $\Gamma$ _u = 1时表示更新，当 $\Gamma$ _u = 0时表示不更新。
它的优点是，通过更新门，当从左到有扫描一个序列时，这个时机是要更新记忆细胞还是不更新，直到需要更新时，而更新门 $\Gamma$ _u，很容易得一个非常接近0的数值，而在式子中就很好的解决了梯度消失的问题。
以上是为了方便理解，简化的GRU，下面则是真正的GRU，
$\widetilde{c}$ ^t = Tanh(W_c[ $\Gamma$ _r * c^<t-1>,x^<t>] + b_a)
$\Gamma$ _u = $\sigma$ (W_u[c^<t-1>,x^<t>] + b_u)
$\Gamma$ _r = $\sigma$ (W_r[c^<t-1>,x^<t>] + b_r)
c^t = $\Gamma$ _u * $\widetilde{c}$ ^t + (1 - $\Gamma$ _u) * c^<t-1>
$\Gamma$ _r是表示相关性的门，表示c^<t-1>和 $\widetilde{c}$ ^t的计算相关性有多大，吴恩达的课程中将其称为相关门，但是其他博客中一般称为重置门。
可能大家疑惑为什么不用上面的简化的GRU，因基于大量的研究人员的研究实践发现加入相关门，能够更好的解决深度网络中的记忆问题，以及梯度消失问题，因此设计了后面的GRU。