深度学习中的变形金刚——transformer

zcg1942

已于 2025-03-20 10:55:22 修改

阅读量1k

点赞数 15

文章标签： transformer 深度学习人工智能

于 2024-04-30 23:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcg1942/article/details/137243814

版权

很荣幸能和这些大牛共处一个时代。网络结构名字可以是一个卡通形象——变形金刚，论文名字可以来源于一首歌——披头士乐队的歌曲《All You Need Is Love》。

transformer在NeurIPS2017诞生，用于英语-德语，英语-法语的翻译，在BLEU(bilingual evaluation understudy)指标上得到了很好的表现。由自然语言生成代码也是一种翻译，文生图也是一种转换，事实上chatgpt，bert都是基于tranformer的。

RNN的问题：

为了将前文的信息传递到后面，让后面的字符利用前文信息，其实已经有RNN了：

问题是前面的信息，越往后权重会低，是一个指数衰减的过程。

还有一个问题是权重反复利用，也是指数的关系，这样权重的细微抖动，就会造成很大的差异。

LSTM解决了一些RNN的问题

长短期记忆网络LSTM，但这项技术只能按照顺序处理句子，无法有效利用文章后面可能出

最低0.47元/天解锁文章

博客等级

码龄8年

112
原创

737
点赞

1423
收藏

479
粉丝

关注

私信

热门文章

分类专栏

树 1篇
PPT 1篇
读书笔记 33篇
知乎 4篇
图像处理 56篇
身边的科技 2篇
算法 47篇
编程 17篇
CNN 18篇

最新评论

像素级损失函数和经典超分文章
qq_42138081: 你好，SSIM公式化简是不是不对？我看另外一篇化简后是不一样的https://blog.csdn.net/weixin_46838716/article/details/125491677
CV中的经典网络模型——AlexNet和VGG
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
什么是单应矩阵和本质矩阵
W·Z·Y: 请教一个问题。我现在获取了两个不同视角的图像。相机是进行了旋转和平移。然后我现在想求，两个图像的R和T。是求基础矩阵中的R和T吗？不是求解单应矩阵吧？
无处不在的拉普拉斯——边缘，斑点，金字塔
ByeCsdnAndToGitHub: 非常好的文章，有料
论文阅读——Restormer
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。