【自然语言处理-二-attention注意力是什么】

最新推荐文章于 2024-06-20 06:16:29 发布

y_dd

最新推荐文章于 2024-06-20 06:16:29 发布

阅读量1.1k

点赞数 30

分类专栏：深度学习文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/zishuijing_dd/article/details/136263181

版权

深度学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

自然语言处理二-attention 注意力机制

自然语言处理二-attention 注意力

自然语言处理二-attention 注意力

自然语言处理离不开attention的概念，当然attention的机制不仅仅用在自然语言处理。
那么attention到底是什么呢？Attention可以理解成一种记忆能力，而人工智能需要具备推理、人工智慧等能力，那记忆能力就必不可少。

记忆能力

记忆能力分为三种sensory memory、working memory、Long-term memory
Sensory memory记忆的时间很短，一般通过外界输入，比如眼睛和耳朵可以看到的东西
Working memory 真正感知世界的信息，选择人应该attention的东西，比如眼睛一瞬间可以看到很多东西，但我们会根据当下的需要，attention其中的一部分。
Long-term memory 真正要处理感知到的这些信息，还需要长期记忆，从长期记忆中提取到本次处理需要的信息，然后处理了后再encode到长期记忆中。比如说我们看到本次讲课的内容，需要回忆很久之前课程讲解的内容，消化后我们会再更新到长期记忆中。
整个过程就如下：
在这里插入图片描述

生物学上的注意力，也是遵从这个过程的。
在这里插入图片描述

Attention based的model如果对应于上述memory的处理过程，其实可以分为两部分：
1.第一部分是sensory memory和working memory之间，这部分用于处理模型的输入，用于关注模型中的部分输入。
2.第二部分是working memory和long-term之间，这部分也不陌生在老的模型，RNN和LSTM等模型中就具备这种记忆能力，但是这些模型有些缺点，越大的memory就意味着更多的参数，比如RNN中需要memory是K*K大小（K是memory size），参数过多很容易overfit(过拟合)。但是attention based的model就解决了这种问题，参加memory的size不会增加参数数量，这部分会在后面解释。

回顾下RNN（也包括LSTM GRU）解决memory问题

在这里插入图片描述

下面用RNN代表RNN LSTM GRU等，我们以前用RNN实现机器翻译是用的seq2seq的model，模型的实现架构如上图，这个里面是如何实现记忆能力的呢？
RNN中最后一个hidden layer的输出，作为解码器每一个单元的输入的一部分，也就是图中红框的部分，这就实现了解码的时候可以具有记忆功能了。但是最后一层的输出真的能代表整个输入的信息么？答案肯定是不能，所以我们有了新的模型，attention based的model