【MindSpore易点通】Transformer的注意力机制

本文介绍了Transformer模型的自注意力机制,包括Self-Attention的基本原理和Multi-Head Attention的结构。自注意力允许模型学习序列中元素之间的关系,而Multi-Head Attention通过结合多个注意力头来增强这种关系的理解。
摘要由CSDN通过智能技术生成

Transformer简介

自从Transformer模型问世后,基于Transformer的深度学习模型也在NLP领域中大放异彩。本文主要是介绍Transformer模型自注意力机制的基本原理,以方便大家在NLP中了解和使用Transformer。

Self-Attention(自注意力机制)

自注意力机制最初是就是出现在自然语言处理领域的,自注意力模型可以认为在学习一种关系,在Transformer的整体结构中处于下图红框的位置中。

Multi-Head Attention的位置:这是论文中 Transformer 的内部结构图,左侧为编码块(Encoder block),右侧为解码块(Decoder block)。红框中的部分为多头注意力模块(Multi-Head Attention),是由多个自注意力(Self-Attention)组成的,可以看到Encoder block包含一个Multi-Head Attention,而 Decoder block包含两个Multi-Head Attention。Multi-Head Attention上方还包括一个Add&Norm层,Add表示残差连接(Residual Connection)用于防止网络退化,Norm表示Layer Normalization,用于对每一层的激活值进行归一化。

Self-Attention 结构:通过上面介绍我

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值