Attention机制的简要介绍

最新推荐文章于 2024-07-16 14:11:41 发布

工藤旧一

最新推荐文章于 2024-07-16 14:11:41 发布

阅读量831

点赞数

本文链接：https://blog.csdn.net/weixin_45459911/article/details/108950881

版权

attention机制说白了就是加权求和。

attention机制之所以看上去繁复冗杂是因为有很多的种类，按照不同的分类标准，可以分为以下几种类型：

1、计算区域

2、所用信息：假设要对一段原文进行attention处理，可能会用到内部信息和外部信息。

general attention：用到了外部信息，常见于用来构建两段文本关系的任务。query一般包含了外部信息，根据外部query对原文进行对齐。
l2. ocal attention：只使用内部信息，即query、key、value都只和输入原文有关系，如：self attention。

3、结构层次

单层attention：用一个query对一段原文进行一次attention。
多层attention：比如把一个文档划分成多个句子。第一层对每个句子使用attention计算一个句向量，第二层对所有句向量执行attention生成文档向量进行后续使用。
多头attention：可参考《attention is all you need》中的multihead attention。

4、模型结构

参考：
https://zhuanlan.zhihu.com/p/124218197
https://zhuanlan.zhihu.com/p/35739040

关注