机器学习-李宏毅-【2】自注意力机制 (Self-attention)

Self-attention,自注意力机制
词向量关联性计算:Dot-product、Inner-product
(自己与自己计算关联性?)

Batch Normalization

Pytorch 在 Training 过程中将持续计算一个 moving avrage

Internal Covariate Shift

Transformer

Encoder的Block
Transformer的block
Decoder自己决定输出的向量的长度
在这里插入图片描述
NAT:

  1. parallel 平行化
  2. controllable output length 输出长度可控

Tricks

  1. Copy Mechanism
  2. Guided Attention:Monotonic Attention、Location-aware attention
  3. Beam Search: Greedy Decoding
  4. Scheduled Sampling

BLEU score

Sequence Labeling

类似于卷积
在这里插入图片描述
类似于空洞卷积???
在这里插入图片描述

special token:前两行、前两列,所有token通过special token传递信息,token两两间无通信
在这里插入图片描述

multi-head:通过不同的head,使用多种attention机制
在这里插入图片描述
在这里插入图片描述

query和key在同一cluster里才计算其attention value,否则直接置0
在这里插入图片描述
上述模型,对于要不要计算attention,都是基于人类的理解

基于learnable决定要不要计算attention
在这里插入图片描述

去除重复的column
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值