Transformer
文章平均质量分 89
算法小白(真小白)
这个作者很懒,什么都没留下…
展开
-
Transformer系列专题(四)——Swintransformer
3个矩阵,64个窗口,heads为3,窗口大小7*7=49,每个head特征96/3=32。attention结果为:(64,3,49,49)每个头都会得出每个窗口内的自注意力。输出:(3196,96)相当于序列长度是3136个,每个的向量是96维特征。通过得到的attention计算得到新的特征(64,49,96)总共64个窗口,每个窗口7*7的大小,每个点对应96维向量。qkv三个矩阵放在一起了:(3,64,3,49,32)为什么要shift?在计算时,只需要计算自己窗口的,其他的都是无关的。原创 2024-07-17 22:29:44 · 1074 阅读 · 0 评论 -
Transformer系列专题(三)——transformer在CV中的应用
从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。原创 2024-07-17 16:27:48 · 808 阅读 · 0 评论 -
Transformer系列专题(二)——multi-headed多头注意力机制
在实践中,当给定相同的查询、键和值的集合时,我们希望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,例如捕获序列内各种范围的依赖关系(例如,短距离依赖和长距离依赖)。因此,允许注意力机制组合使用查询、键和值的不同的 子空间表示(representation subspaces)可能是有益的。原创 2024-05-23 21:36:14 · 1156 阅读 · 0 评论 -
Transformer系列专题(一)——self-attention自注意力机制如何计算
自注意力机制的原理相当于一个词在其上下文中的联系,即将这一个词赋予这一句话中将每个词乘以不同的权重,即是这一个词对上下文的关系程度。将本句话中的a对上下文的关系程度即为,将上下的词分别乘以不同的权重赋予到a词中,这就是a对上下问的关系程度。接下来详细介绍自注意力机制如何计算?原创 2024-05-23 17:34:24 · 1476 阅读 · 2 评论