TensorFlow实战：LSTM的结构与cell中的参数

最新推荐文章于 2020-03-19 22:37:48 发布

MrTriste

最新推荐文章于 2020-03-19 22:37:48 发布

阅读量1.6w

点赞数 27

分类专栏： LSTM tensorflow实战深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjc1182511338/article/details/79689409

版权

看了关于LSTM的很多文章，感觉都讲的不错，唯独cell中的参数维度被忽略了，导致大体上能听懂，但是一涉及细节就比较模糊，所以想在这里写一篇侧重于LSTM参数维度的文章，以备大家查阅。
文章会结合TensorFlow具体的代码，基本原理的话可以先去看一下原理篇，这里默认大家都了解基本的原理，这里推荐下自己写的LSTM详解反向传播公式推导。

一些参数

训练的话一般一批一批训练，即让batch_size 个句子同时训练；
每个句子的单词个数为num_steps，由于句子长度就是时间长度，因此用num_steps代表句子长度。
在NLP问题中，我们用词向量表示一个单词（一个数基本不能表示一个词，大家应该都知道的吧，可以去了解下词向量），我们设定词向量的长度为wordvec_size。
LSTM结构中是一个神经网络，即下图的结构就是一个LSTM单元，里面的每个黄框是一个神经网络，这个网络的隐藏单元个数我们设为hidden_size，那么这个LSTM单元里就有4*hidden_size个隐藏单元。
每个LSTM输出的都是向量，包括 $C_t,h_t$ ，它们的长度都是当前LSTM单元的hidden_size（后面会解释到）。
语料库中单词的个数是vocab_size

单层LSTM

我们结合具体代码来讲，以下是一个单层的LSTM的最基本结构

cell = tf.contrib.rnn.LSTMBlockCell(hidden_size, forget_bias=0.0)	
outputs = []
state = self._initial_state # state
with tf.variable_scope("RNN"):
    for time_step in range(num_steps):
        if time_step > 0: tf.get_variable_scope().reuse_variables()
            # cell_output: [batch_size,hidden_size]
            (cell_output, state) = cell(inputs[:,time_step,:

最低0.47元/天解锁文章

关注

27
点赞
踩
79

收藏

觉得还不错? 一键收藏
23
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MrTriste CSDN认证博客专家 CSDN认证企业博客

码龄10年

35: 原创

23万+: 周排名

91万+: 总排名

13万+: 访问

: 等级

1489: 积分

57: 粉丝

104: 获赞

68: 评论

237: 收藏

私信

关注

热门文章

分类专栏

最新评论

LSTM详解反向传播公式推导
不牌不改: 图全挂了。。。
循环神经网络RNN详解反向传播公式推导+代码（十分详细）
IT猿手: RNN详推可以参考https://blog.csdn.net/weixin_46204734/article/details/121531351?spm=1001.2014.3001.5501
TensorFlow实战：LSTM的结构与cell中的参数
糯米团子有点萌: [code=python] if time_step > 0: tf.get_variable_scope().reuse_variables() [/code]请问这句话有什么作用呀？
LSTM详解反向传播公式推导
学机器学习的科比: 而楼下说的为什么不是连乘，如果是连乘的话，则所有权重不共享了，说白了就是类似于BP神经网络之间的权重，BP的反向传播为什么是连乘，因为第一层W1和第二层W2有直接关系，并且不共享，两层的W完全不相同，而LSTM中，每个CELL中的权重和另外一个CELL中的权重没有直接关系，大家的权重都是一样的，并没有像BP神经网络那样，也就是说，LSTM中的某一个CELL中的权重不是由其他CELL中的权重通过操作得来的
LSTM详解反向传播公式推导
学机器学习的科比: 为什么是加等号呢，用一句话解释就是循环神经网络的权重是共享的，也就是一摸一样的，也就是说在反向传播的时候，L(损失函数)对任何一个权重求导的时候(这里假设是对遗忘门的W)对应的是共有时间步这么多的权重的边(比如时间步是10，则L对遗忘门的W求导的时候，会对应着10个边，因为每一个边都是遗忘门的W)，为了避免产生歧义，分别对每个时间步的W求导然后相加，就可以啦

大家在看

最新文章

目录

评论 23

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。