如何理解论文中常见的Attention机制

最新推荐文章于 2025-01-17 14:41:39 发布

北岛

最新推荐文章于 2025-01-17 14:41:39 发布

阅读量796

点赞数

文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_52255304/article/details/125413862

版权

如今在CV和NLP领域，attention机制已经用的越来越广泛。然而很多学生在了解attention机制时，很容易搜索到文章《Attention is all you need》，从而去了解transformer中的self-attention。由于self attention的理解存在一定难度，而且与前期的attention方法并不相同。容易对在此学习进度的学生产生误导，本文在此简单解释一般Seq2Seq模型中所涉及的attention机制。

以常规的LAS（listen attend and spell）为例，其结构一般被认为由encoder decoder 和attention机制三部分组成。在encoder模块中，输入信息被处理为多个1*V的向量 $h_i$ ，随后在decoder模块中，每个输入 $c_i$ 并不是对应位置的encoder结果 $h_i$ ,从 $h_i$ 到 $c_i$ 就是attention模块的意义。

（此图出自李宏毅——自然语言处理课程PPT）

简单来说，attention就是看一遍全部的输入信息H，即 $h_1-h_n$ ，随后根据当前的状态（在Seq2Seq任务中，一般为上一个节点的输出），对全部输入信息添加权重 $a_1-a_n$ ，对所有输入信息作加权和，将结果作为当前状态的编码输入。

这样的好处是系统可以综合全部的已知信息进行处理，而不是像RNN或者LSTM一样，只能分析输出节点之前的已知数据，尤其在句子翻译、文本分类、句子续写等NLP常规任务中具有重要作用。举个例子，当你想要翻译 “我很喜欢狗，不过那是我小时候的事了，现在我更喜欢猫” 这句话时，使用RNN、LSTM网络很有可能会因为在输出 “我很喜欢狗” 时不能注意到后边的时间信息，从而在时态上出现错误，而Attention由于看到了全部的句子信息，就更可能翻译出争取的句子时态。

此外，由于Attention采用加权和形式，比双向LSTM等传统信息融合方法更加直接，效果也往往更好。不过由于Attention机制综合全部已知信息，有时候我们不想让所有已知信息都被Attention看到，由此引出了大量Attention任务的变形，如mask-attention等。这些变形本质上与Attention并无过于显著的差异，了解Attention机制后，进行推广便是势如破竹。