pytorch lstm源代码解读

最新推荐文章于 2025-04-15 20:37:23 发布

唐僧爱吃唐僧肉

最新推荐文章于 2025-04-15 20:37:23 发布

阅读量4.5k

点赞数 5

分类专栏： pytorch笔记

本文链接：https://blog.csdn.net/znevegiveup1/article/details/112055177

版权

最近阅读了pytorch中lstm的源代码，发现其中有很多值得学习的地方。
首先查看pytorch当中相应的定义

        \begin{array}{ll} \\
            i_t = \sigma(W_{ii} x_t + b_{ii} + W_{hi} h_{t-1} + b_{hi}) \\
            f_t = \sigma(W_{if} x_t + b_{if} + W_{hf} h_{t-1} + b_{hf}) \\
            g_t = \tanh(W_{ig} x_t + b_{ig} + W_{hg} h_{t-1} + b_{hg}) \\
            o_t = \sigma(W_{io} x_t + b_{io} + W_{ho} h_{t-1} + b_{ho}) \\
            c_t = f_t \odot c_{t-1} + i_t \odot g_t \\
            h_t = o_t \odot \tanh(c_t) \\
        \end{array}

lstm原理图
对应公式：
圈1： $f_t = \sigma(W_{if} x_t + b_{if} + W_{hf} h_{t-1} + b_{hf})$
圈2： $i_t = \sigma(W_{ii} x_t + b_{ii} + W_{hi} h_{t-1} + b_{hi})$
圈3： $g_t = \tanh(W_{ig} x_t + b_{ig} + W_{hg} h_{t-1} + b_{hg})$
圈4： $o_t = \sigma(W_{io} x_t + b_{io} + W_{ho} h_{t-1} + b_{ho})$
圈5： $c_t = f_t \odot c_{t-1} + i_t \odot g_t$
圈6： $h_t = o_t \odot \tanh(c_t)$