Transformer中的kqv

Transformer中的kqv是自注意力机制的核心,用于计算输入特征间的关联性。kqv分别代表查询(query)、键(key)和值(value),通过它们之间的内积计算关联性,并结合值来生成包含全局信息的新特征。
摘要由CSDN通过智能技术生成

Transformer中的kqv

之前一直不了解Transformer中的kqv到底是什么意思,为什么要有kqv?kqv的含义都是什么?所以近期准备从最原始的自注意力机制开始学习,逐步加深对Transformer的了解。

言归正传,关于transformer中的kqv结构其实很好理解:

我们要实现的目标是:

💡 自注意力机制其实是希望实现当前一组输入的自关联,输入信息内部自己注意到哪些特征之间是关联性很高的(比如一个句子,相同词汇要根据整个句子才能知道具体意思)。

通过kqv的操作就能实现上面的目的:

💡 比如一组输入包含4个特征,那就需要两两计算不同特征之间的关联性。如果先计算第一个特征与其余特征的关联性,那第一个特征就先通过一个FC层变成合适计算查询关联性的形态,因为它要与别的两个特征统统去计算关联性,相当于它是作为一个查询人员,去一一查询(query)与别的特征的相关性,而被查询的特征其实就相当于被索引了一样,而计算机中一般被索引的数据都是通过索引键(key)来找到整个数据的(比如键值对,就是通过键,就能找到整个值)。同样,其余3个特征也需要通过FC层变成适合计算被查询关联性的形态。而k与q做一个内积就得到特征之间的关联性了。

💡 现在想通过得到的这些关联性计算出新的特征,该特征包含了全局的关联信息,所以一个直观的思路就是对应的关联性×原特征的值(value)然后全部相加就可以得到新的包含全局关联信息的特征了。而实际上这个value也是让原特征经过FC层变成合适与关联性相乘的值(value,就是所谓的v)。

kqv的直观理解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Colin_Jing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值