NLP-D27-梯度剪裁-LSTM-GRU-毕业答辩ppt

这篇博客介绍了自然语言处理中的梯度剪裁技术,详细探讨了LSTM和GRU的内部机制,包括one_hot编码、RNN隐藏层的理解、torch.cat的使用以及RNN迭代、批次的关系。此外,还讨论了框架优化的关键点,如损失函数、更新器和层的设计。最后,作者分享了学习GRU和LSTM的心得,并提到制作毕业答辩PPT的过程。
摘要由CSDN通过智能技术生成

—0436标题为nlp,但是到现在还没看宝可梦!不过感觉越来越近了!今天虽然是周六,不过还是4点就起了,最近这个时间的学习效率越来越高,不是在自我感动,要努力,要出活。

—0507写了近期计划,可以开始继续coding了!!!昨天晚上看完了rnn,还没动手实现呢!

1、one_hot(,)

独热编码的种类数(第二个参数)不能少于实际值(第一个参数)种类的数量,不然会报错。

2、len(new_state)和和new_state的维度

为了和后面的lstm兼容,把new_state写成了一个tuple。在rnn中,这个tuple只有一个,是两维的。大小是[batch_size,num_hiddens]
在这里插入图片描述

0553干饭干饭干饭!!!

–0629吃饭的时候看完了沐沐的Q&A,还找了半天蛋白杯哈哈哈!继续码代码了!

3、梯度剪裁

梯度剪裁通过限制梯度范数的大小,避免其过大,造成梯度爆炸。

4、torch.cat的用法

cat是将多个张量拼接,不是将一个张量转换维度(reshape

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值