Synthesizer: Rethinking Self-Attention in Transformer Models

最新推荐文章于 2024-07-25 16:08:18 发布

野生维C片

最新推荐文章于 2024-07-25 16:08:18 发布

阅读量722

点赞数

分类专栏： NLP 文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43869268/article/details/107547772

版权

Synthesizer: Rethinking Self-Attention in Transformer Models

这篇论文通过替换 $\times K^{T}$ attention矩阵，发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。

SYNTHESIZER model

在这插入图片描述

Dense SynSynthesizer：

将 $\times K^{T}$ attention矩阵替换成经由两层前馈层的网络训练得到的矩阵。直观上看，就是将每个token(长度： $d$ )映射成一个长度为

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Synthesizer: Rethinking Self-Attention in Transformer Models

Synthesizer: Rethinking Self-Attention in Transformer Models这篇论文通过替换Q×KTQ \times K^{T}Q×KTattention矩阵，发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。SYNTHESIZER
复制链接

扫一扫

专栏目录

野生维C片 CSDN认证博客专家 CSDN认证企业博客

码龄6年

26: 原创

43万+: 周排名

132万+: 总排名

5万+: 访问

: 等级

697: 积分

5: 粉丝

34: 获赞

12: 评论

95: 收藏

私信

关注

热门文章

分类专栏

pytorch 1篇
NLP 2篇

最新评论

1043 Is It a Binary Search Tree （25 分）（算法笔记）
柘木木: 镜像后序没写递归边界，root==NULL要return ；
1043 Is It a Binary Search Tree （25 分）（算法笔记）
胡澳治: 我好像最后都通过了
1043 Is It a Binary Search Tree （25 分）（算法笔记）
啥羔羊: 我也过不去，段错误
1043 Is It a Binary Search Tree （25 分）（算法笔记）
m0_59317791: 我也1，4错误，22年了解决了吗
gets()和getline()
想进大厂的Leo: 经过实验，发现两者似乎没有区别，请问是我哪里出问题了吗 [code=cpp] #include<bits/stdc++.h> using namespace std; /* 输入两行： 12345 12345 结果相同： a12345b */ int main(void){ string a; cin>>a; cout<<"a"<<a; char b[10]; gets(b); // string b; // getline(cin,b); cout<<"b"<<b; } [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。