tensorflow中sequence_loss_by_example()函数的计算过程（结合TF的ptb构建语言模型例子）

闰土不用叉

于 2018-10-15 20:18:30 发布

阅读量7.8k

点赞数 16

分类专栏：笔记实验文章标签： tensorflow sequence_loss_by_example 损失函数 softmax 交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xyz1584172808/article/details/83056179

版权

注：由于tensorflow版本的不同，这个函数所在的模块可能不同，如：tf.nn.seq2seq.sequence_loss_by_example和tf.contrib.legacy_seq2seq.sequence_loss_by_example

在正式进入sequence_loss_by_example（）函数的计算过程之前，需要先复习下两个基本的知识点，softmax的计算和交叉熵的计算。

1 softmax的计算过程

可以直接网上已经写好的博客：三分钟带你对 Softmax 划重点，这篇文章中有举具体的例子，最好自己动手算一下，不自己动手计算，往往看了就忘了。

2 交叉熵的计算过程

交叉熵网上的文章也很多，一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉这篇文章讲得非常详细，还举了各种例子。

以上复习了softmax和交叉熵的计算过程，为啥要使用softmax和交叉熵，可以自行网上搜搜。接下来就进入sequence_loss_by_example（）函数的计算过程。

3 sequence_loss_by_example（）函数的计算过程（以TF的ptb构建语言模型例子为例）

注：例子中的batch_size=20，num_steps=20，为了更直观的查看各个数据的维度，我将num_steps改为了15.（因为本例是通过上一个词预测下一个词，其实num_steps改为多少并没有影响）。

（1）LSTM的输出

LSTM的隐藏层的单元个数为200，因此，LSTM每一步的输出数据的维度为（batch_size,hidden_size）。有因为LSTM展开的时间步数为num_steps，于是通过

outputs.append(cell_output)

将每一时刻的输出都收集起来，这样，最后的outputs是一个list，其样式为：
LSTM的全部输出
图中黄色的部分表示同一个序列在LSTM不同时刻的输出。
紧接着对outputs进行拼接和reshape，其过程如下图：

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。