NLP-D31-《动手学pytorch》完结&BERT&Layer_norm

本文对比了ELMo、GPT和BERT,探讨BERT的位置嵌入参数和有效长度问题,详细解释了LayerNorm的使用,包括在不同维度的应用,并介绍了BERT模型的NSP任务和微调过程。同时,文章提到了优化算法Momentum和Adam在梯度平滑中的作用。
摘要由CSDN通过智能技术生成

---------0439我感觉今天终于可以阶段性地看完沐沐的课了!!!狂喜!马上终于可以看看宝可梦了嘿嘿嘿!

1、ELMo&GPT&BERT对比

在这里插入图片描述

2\位置嵌入参数

全局来看,应该也就只有一个位置嵌入参数
在这里插入图片描述

3\BERT的valid_len第一层觉得有意义,后面感觉就很生硬了

在这里插入图片描述

4\为啥norm_shape一会一维一会二维呢???

在这里插入图片描述

5\Layer_norm的使用方法

参数传几维,就对几维座layer_norm,不过传的时候shape要匹配。
传最后一维

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值