【深度学习 九】transformer

本文深入探讨了Transformer的结构,包括encoder-decoder架构,重点解析了encoder中的输入部分、注意力机制以及前馈神经网络。在注意力机制中,详细阐述了基本注意力机制、多头注意力以及残差连接和层归一化的作用。decoder部分则介绍了masked multi-head attention以防止信息泄露,并解释了encoder与decoder如何交互完成序列生成任务。
摘要由CSDN通过智能技术生成

1 transformer的encoder-decoder结构:

结构内部:

 

2 encoder:

2.1  输入部分

embedding和postitional encoding(位置编码)

 

为什么需要位置编码:如RNN每一time steps共享一套参数,串行输入输出,而transformer采用可以并行出入几个单词或者一串句子,优点是处理效率高,缺点是无法表示时序关系,所以要对输入的embedding加上postitional encoding。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值