Transformer：Attention is all you need

最新推荐文章于 2023-09-12 21:21:08 发布

学人工智能的皮皮虾

最新推荐文章于 2023-09-12 21:21:08 发布

阅读量288

点赞数

文章标签： NLP Transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43747748/article/details/102851169

版权

学习Transformer

Transformer详细解读1
Transformer详细解读2
Transformer详细解读3
Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。作者采用Attention机制的原因是考虑到RNN（或者LSTM，GRU等）的计算限制为是顺序的，也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种机制带来了两个问题：　
(1) 时间片 t 的计算依赖 t−1时刻的计算结果，这样限制了模型的并行能力；
(2) 顺序计算的过程中信息会丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，LSTM依旧无能为力。
“长距离依赖信息”的理解：1）一个词其实是一个可以表达多样性语义信息的符号（歧义问题）。2）一个词的语义确定，要依赖其所在的上下文环境。（根据上下文消岐）3）有的词可能需要一个范围较小的上下文环境就能确定其语义（短距离依赖现象），有的词可能需要一个范围较大的上下文环境才能确定其语义（长距离依赖现象）。
Transformer的提出解决了上面两个问题：
(1) 首先它使用了Attention机制，将序列中的任意两个位置之间的距离是缩小为一个常量；
(2) 其次它不是类似RNN的顺序结构，因此具有更好的并行性，符合现有的GPU框架。

学人工智能的皮皮虾

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。