通过7个版本的attention的变形,搞懂transformer多头注意力机制

——1——

Transformer模型架构

Transformer 由两个独立的模块组成,即Encoder和Decoder

Encoder

编码器是一个堆叠N个相同的层。每层由两个子层组成,第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络。论文的作者还使用了ADD&Norm的残差连接与归一化操作

Encoder

当然,输入数据需要经过word-embedding与位置编码后,然后再传递给多头注意力机制,当然关于位置编码与详细的word-embedding操作可以参考如下动画视频教程,使用矩阵变化动画来讲解位置编码与word-embedding

Decoder

解码器层与编码器类似,都是堆叠N个相同的层,但是解码器每层有三个子层组成

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Transformer多头注意力机制Transformer模型中的核心组件之一,它通过使用多个注意力头来捕捉输入序列中的不同关系和特征。以下是一个简单的Transformer多头注意力机制的代码示例: ```python import torch import torch.nn as nn class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super(MultiHeadAttention, self).__init__() self.num_heads = num_heads self.d_model = d_model self.d_k = d_model // num_heads self.W_Q = nn.Linear(d_model, d_model) self.W_K = nn.Linear(d_model, d_model) self.W_V = nn.Linear(d_model, d_model) self.W_O = nn.Linear(d_model, d_model) def forward(self, Q, K, V, mask=None): batch_size = Q.size(0) # 线性变换得到Q、K、V Q = self.W_Q(Q) K = self.W_K(K) V = self.W_V(V) # 将Q、K、V分割成多个头 Q = Q.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) K = K.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) V = V.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) # 计算注意力得分 scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.d_k).float()) # 对注意力得分进行mask操作 if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) # 计算注意力权重 attention_weights = torch.softmax(scores, dim=-1) # 进行注意力加权求和 attention_output = torch.matmul(attention_weights, V) # 将多个头的输出拼接起来 attention_output = attention_output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) # 线性变换得到最终的输出 output = self.W_O(attention_output) return output, attention_weights ``` 这段代码实现了一个简单的多头注意力机制,其中`d_model`表示输入和输出的维度,`num_heads`表示注意力头的数量。在`forward`方法中,首先通过线性变换将输入序列Q、K、V映射到指定维度,然后将它们分割成多个头,并计算注意力得分。接着根据mask对注意力得分进行处理,然后计算注意力权重并进行加权求和。最后,将多个头的输出拼接起来,并通过线性变换得到最终的输出。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能研究所

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值