动手学(3)

最新推荐文章于 2024-04-01 14:55:36 发布

zfnice

最新推荐文章于 2024-04-01 14:55:36 发布

阅读量238

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zfnice/article/details/104384608

版权

循环神经网络

循环神经网络的构造
在这里插入图片描述
one-hot向量

裁剪梯度
在这里插入图片描述
困惑度
我们通常使用困惑度（perplexity）来评价语言模型的好坏。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；
基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。
显然，任何一个有效模型的困惑度必须小于类别个数。在本例中，困惑度必须小于词典大小vocab_size。

定义模型训练函数
跟之前章节的模型训练函数相比，这里的模型训练函数有以下几点不同：

使用困惑度评价模型。
在迭代模型参数前裁剪梯度。
对时序数据采用不同采样方法将导致隐藏状态初始化的不同。

关于循环神经网络描述错误的是：（2）

在同一个批量中，处理不同语句用到的模型参数w ^ h 和b ^ h 是一样的（批量训练的过程中，参数以批为单位更新的，每个附加内模型的参数都是一样的。）
循环神经网络处理一个长度为Ť的输入序列，需要维护Ť组模型参数（循环神经网络通过不断循环使用相同的单个参数来应对不同长度的序列，故网络的参数数量与输入序列长度无关。）
各个时间步的隐藏状态HŤ不能并行计算（隐状态HŤ的值依赖于H1，…，HŤ - 1，故不能并行计算。）
可以认为第ŤŤ一个时间步的隐藏状态HŤ 包含终止到第Ť一个时间步的序列的历史信息

关于困惑度的描述错误的是：（3）

困惑度用来评价语言模型的好坏
困惑度越低语言模型越好
有效模型的困惑度应该大于类别个数（一个随机分类模型（基线模型）的困惑度等于分类问题的类别个数，有效模型的困惑度应小于类别个数。）

关于采样方法和隐藏状态初始化的描述错误的是：（3）

采用的采样方法不同会导致隐藏状态初始化方式发生变化
采用相邻采样仅在每个训练周期开始的时候初始化隐藏状态是因为相邻的两个批量在原始数据上是连续的
采用随机采样需要在每个小批量更新前初始化隐藏状态是因为每个样本包含完整的时间序列信息（随机采样中每个样本只包含局部的时间序列信息，因为样本不完整所以每个批量需要重新初始化隐藏状态。）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学(3)

循环神经网络循环神经网络的构造one-hot向量裁剪梯度困惑度我们通常使用困惑度（perplexity）来评价语言模型的好坏。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。