Attention机制的简要介绍

attention机制说白了就是加权求和

attention机制之所以看上去繁复冗杂是因为有很多的种类,按照不同的分类标准,可以分为以下几种类型:

1、计算区域

  1. soft attention:对所有key求权重概率,参考所有key进行加权求和。
  2. hard attention:精准定位到某个key,此key权重概率为1,其余key为0。
  3. local attention:上述两者折中。先基于hard定位到某key,然后在key的一个窗口内应用soft。

2、所用信息:假设要对一段原文进行attention处理,可能会用到内部信息和外部信息。

  1. general attention:用到了外部信息,常见于用来构建两段文本关系的任务。query一般包含了外部信息,根据外部query对原文进行对齐。
    l2. ocal attention:只使用内部信息,即query、key、value都只和输入原文有关系,如:self attention。

3、结构层次

  1. 单层attention:用一个query对一段原文进行一次attention。
  2. 多层attention:比如把一个文档划分成多个句子。第一层对每个句子使用attention计算一个句向量,第二层对所有句向量执行attention生成文档向量进行后续使用。
  3. 多头attention:可参考《attention is all you need》中的multihead attention。

4、模型结构

  1. CNN+attention:可对卷积层输出做attention或者可用attention替换max pooling。
  2. LSTM+attention:如对所有step的hidden state进行加权,把注意力集中到整段文本中比较重要的hidden state信息。
  3. 纯attention:最经典的方案,如《attention is all you need》就属于这种。

参考:
https://zhuanlan.zhihu.com/p/124218197
https://zhuanlan.zhihu.com/p/35739040

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值