自注意力机制-李宏毅课程笔记

文章探讨了在多视角网络中,不同视图嵌入矩阵的处理问题。传统方法将每个矩阵单独输入神经网络,导致矩阵间的关系丢失。为解决此问题,文章引入了注意力机制,通过计算矩阵间的相关性来确定权重,将嵌入矩阵加权混合后一同输入,以保持它们之间的关联性。
摘要由CSDN通过智能技术生成

因为目前在看一篇论文,里面涉及了有关注意力机制的问题,因此特学习一下

试想一下,在多视角网络中可以得到不同视图下的嵌入矩阵,常规方式是将这些嵌入矩阵分别输入神经网络中得到结果,但这样做会出现一个明显的问题:各个嵌入矩阵在神经网络中的处理变得毫不相关。而按照我们的经验来讲,在多视角网络中得到的不同视图下的嵌入矩阵常常是存在关系的,为了解决这种问题,传统的做法是如下图所示将所有情况罗列出来。

这种表示方法实在是太麻烦了 

为此我们引入了注意力机制:简单来讲,就是将原本单个嵌入矩阵输入神将网络,修改成按照一定的权重混合在一起后一起输入进去。

两个嵌入矩阵的权重大小取决于二者的相关性

 

而上述计算过程规范表示,大概就是:

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值