注意力机制（attention）

撩本子高手

已于 2023-01-03 10:56:31 修改

阅读量1.1k

点赞数

文章标签：深度学习人工智能

于 2023-01-02 11:45:23 首次发布

本文链接：https://blog.csdn.net/xiaziqiqi/article/details/128519299

版权

简单认识

注意力机制可以增强神经网络输入中数据的一部分权重，减少其他部分的权重，将神经网络的关注点聚焦于数据中的一小部分，所以会降低神经网络中的收敛时间，提高神经网络的效率。在这里用聚焦（focus）理解可能会更好。

例子

具体为假设有一个索引 $i$ 排列好的(token)序列，而且对于每一个标记 $i$ ，神经网络都会有一个相应满足 $\sum_{i}w_{i}=1$ 的权重 $w_{i}$ （非负软权重）（但是这里是否还有硬权重，不清楚），每一个标记都对于一个词嵌入得到的向量 $v_{i}$ ，而且求加权平均 $\sum_{i}w_{i}v_{i}$ 就是注意力机制的输出结果。

此外还可以通过查询-键机制（query-key）计算软权重，而且对于每个标记的词嵌入，我们计算对于的查询向量 $q_{i}$ 和对于的键向量 $k_{i}$ （一一对应的关系），然后再计算点积的softmax函数（概念：Softmax是一种激活函数，它可以将一个数值向量归一化为一个概率分布向量，且各个概率之和为1）之后就可以得到相对应的权重。

实例

下列为基本框架为编码器-解码器模型，而且外加了一个注意力单元，而且注意力单元知识循环状态的点积运算，不需要训练，但是在实际运用过程中需要三个完全连接的神经网络层，而且分别被称为查询（query），键（key），值（value）。

代码

class EncoderDecoder(nn.Module):
    def __init__(self,encoder,decoder,**kwargs):
        super(EncoderDecoder, self).__init__()
        self.encoder = encoder
        self.decoder = decoder

    def forward(self,enc_X,dec_X,*args):
        enc_outputs = self.encoder(enc_X,*args)
        dec_state = self.decoder.init_state(enc_outputs,*args)
        return self.decoder(dec_X,dec_state)

参考（后续还会继续补充）

维基百科注意力机制

撩本子高手

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
注意力机制（attention）

注意力机制可以增强神经网络输入中数据的一部分权重，减少其他部分的权重，将神经网络的关注点聚焦于数据中的一小部分，所以会降低神经网络中的收敛时间，提高神经网络的效率。在这里用聚焦（focus）理解可能会更好。
复制链接

扫一扫