论文笔记——Transformer

最新推荐文章于 2024-05-31 10:19:39 发布

DUT_Shan

最新推荐文章于 2024-05-31 10:19:39 发布

阅读量206

点赞数 2

文章标签：深度学习人工智能自然语言处理 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46092235/article/details/128945177

版权

Abstract部分：

开始时这个网络作者尝试应用在机器翻译任务上面，他们提出Transformer可以不使用递归和卷积，并且网络较为简单，实现效果也很好。（仅仅使用注意力机制，把之前应用在encoder-decoder结构的循环层全部换成mult-headed self-attention）

Background：

之前运用卷积的方式，对于两个距离很远的像素需要很多卷积层才可以将其放在一起（感受野），而transformer运用注意力机制一层就可以看到整个序列。但是卷积的好处可以实现多通道的输出，因此文章提出了一种multi-head attention。

Self—attention（自注意力机制）

将一个序列的不同位置联系起来，以便于计算整个序列。

这是第一个只依赖于自注意力机制的模型。

Model architecture

Encoder（编码器），输入一个长为n的序列(x1, ..., xn),进行表示处理后得到的是一个连续表示序列z = (z1, ..., zn)。Decoder（解码器），拿到z后，生成一个长为m的序列(y1, ..., ym)

左半部分编码器，右半部分解码器

Encoder（编码器）

用了6个完全一样的层，如上图左边，每一层首先是一个mulit-head self-attention，再跟了一个mlp。对于每一个子层使用了一个残差连接。为了满足做残差链接时每一部分的维度相同，于是将每一部分的输出都做成512大小。（这部分的超参数：N=6，维度=512）

Decoder（解码器）

同样运用了6个完全一样的层，如上图右边，也同样时6个层，每一层中有三个子层，与编码器不同之处在于解码器中加入了一个mask的多头注意力机制，防止t时刻中看到t时刻之后的输入。

注意力机制：

设queries和keys的维度为dk，value的维度为dv。

这里的scale指的是结果处于根号下dk。

多头注意力机制：

做法是把qkv都投影h次，分别进行点乘计算注意力，然后最后的结果进行拼接得到输出。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DUT_Shan CSDN认证博客专家 CSDN认证企业博客

码龄5年

4: 原创

160万+: 周排名

62万+: 总排名

2493: 访问

: 等级

48: 积分

4: 粉丝

7: 获赞

2: 评论

14: 收藏

私信

关注

热门文章

最新评论

论文笔记——AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（Vit）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记——Transformer
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记——DEFORMABLE TRANSFORMERS
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记——DEFORMABLE TRANSFORMERS
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613231138。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DUT_Shan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。