神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览-CSDN博客

本文链接：https://blog.csdn.net/xacecaSK2/article/details/104487326

这篇博客详细介绍了在TensorFlow 2.0中RNN的相关实现，包括RNNCell的基础类和LSTM的使用。文章探讨了RNNCell的 dropout 实现、LSTM的门机制以及RNN类的参数和功能。还提到了双向RNN的实现，并指出TF2.0中速度优化的CudnnRNN。

摘要由CSDN通过智能技术生成

神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览

文章目录

神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览

与TF1.x的实现思路不同，在TF2.0中，RNN已经不再是个函数，而是一个封装好的类，各种RNN和RNNCell与顶层抽象类 Layer的关系也更加紧凑（需要说明的是说 Layer顶层并非说它直接继承自 object，而是从……功能的角度，我觉得可以这么说。真实实现里的继承关系是 Layer --> Module --> AutoTrackable --> Trackable --> object）。但是另一方面，感觉新的版本里各个类的关系稍微有些杂乱，不知道后面会不会进一步重构。TF2.0的RNN相关各类关系大致如下图所示

在这里插入图片描述

RNNCell相关

无论是官方给出的文本分类教程，还是我自己从TF1.x改的用更底层API实现的代码，实际上都没有用到Cell相关的对象。但是为了完整起见（毕竟暴露的LSTM类背后还需要LSTMCell类对象作为自己的成员变量），这里还是稍作介绍

`LSTMCell`

本文以LSTM为主，因此先从LSTMCell说起。与TF1.x不同，在2.x版本里，LSTMCell允许传入一个implement参数，默认为1，标记LSTM各门和输出、状态的计算方式。当取默认的1时，计算方式更像是论文中的方式，逐个计算各个门的结果；而如果设为2，则使用TF1.x中组合成矩阵一并计算的方式。此外，由于LSTMCell还继承了前述DropoutRNNCellMixin接口，因此可以在call里对输入和上一时间步传来的状态做dropout。注意由于LSTM有四个内部变量 $\boldsymbol{i}$ 、 $\boldsymbol{f}$ 、 $\boldsymbol{o}$ 和 $\tilde{\boldsymbol{c}}$ ，因此需要各自生成四个不同的dropout mask