transformer架构

自注意力机制

计算a1与a2、a3、a4的关联性,同时还要计算自己与自己的关联性;其中的soft-max就是做一个normalization操作

自适应机制也可用于语音、图像、影像,CNN实际上就是简化版的self-attention

 

论文中对该架构的详细描述如下,其中左边就是encoder,右边部分就是decoder

decoder怎么确定最终输出的长度?AT-decoder、NAT-decoder;AT输出是一个一个依次输出的,而NAT的输出是一次性完成输出的。但是NAT通常不会优于AT

在decoder从上到下第六层(即cross attention)可以看到,有两个输入(k, v)来自于encoder,一个输入(q)来自于下面的masked

为什么masked self-attention?因为是a1,a2,a3,a4的出现顺序是依次出现的

单独提出一个encoder详解,可分为三个部分

2i表示偶数位置,2i+1表示奇数位置,可以理解为偶数位置用sin,奇数位置用cos ;pos表示单词或者字的位置;d_model表示编码向量的维度。  例如,一个词用512位编码,d_model就是512

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值