Self attention(自注意力机制)

论文《Attention is all you need》

输入:N维向量

输出:N个lable:class/sclar  (词性判断)

          一个label:   class/sclar(一个句子判断褒贬,听声识人)

         未定数量的lable,数量由机器学习(seq2seq,翻译,语音辨识)

二 输出为N个label

N 是个不确定的值,具体例子为输入一句话,每句话的长短不一样。

 要考虑整个句子间的联系,window就要尽可能大,过大参数会过多,并且要统计训练样本最长的句子取window,引用自注意力机制

三.self attention           

          

 输入独立的向量,输出有联系的向量,再丢进fully connect 训练

self attention 与 fully connect交替使用,self attention专注于处理整个seq信息,fully connect处理单个向量。

计算每一个向量之间的联系,相关性用\alpha(attention score)表示

 \alpha的计算方法:

 softmax或relu

 由a得到b的过程,b1.b2...同时得到。

 矩阵理论解释self attention

多头自注意力机制

添加位置信息(positional encoding)

四.应用

 image

CNN是简单化的self attention

《on the relationship between sele_attention and convolutional layers》


  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值