51-5 Transformer 论文精读

深圳季连AIgraphX

已于 2024-01-11 20:05:38 修改

阅读量562

点赞数 8

分类专栏： aiXpilot 智驾大模型1 文章标签： transformer 深度学习人工智能智慧城市自动驾驶 gpt-3

于 2024-01-10 13:28:43 首次发布

本文链接：https://blog.csdn.net/weixin_45035094/article/details/135500897

版权

aiXpilot 智驾大模型1 专栏收录该内容

59 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文详细解析了Transformer模型，强调其在深度学习中的重要性，特别是在机器翻译任务上的出色表现。Transformer通过多头自注意力机制，解决了RNN和CNN在并行计算和长序列处理上的局限，提出了全新的序列转录模型架构。文章指出，Transformer不仅在翻译任务上超越了当时的最佳结果，还展示了在其他领域如图像、语音、视频等的广泛应用潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

李沐（沐神）、朱毅讲得真的好，干货蛮多，醍醐灌顶。编码器、解码器、多头自注意力、自回归的概念没搞清楚的话，值得认真读很多遍，甚至可以当成多模态大模型基础课程学习。

今天我们将讲的是transformer这个模型，也就是大家投票分数最高的一篇模型。这篇文章可以认为是最近三年以来深度学习里面最重要的文章之一，他可以认为是开创了即NLP，CNN和RNN之后的第四大类模。斯坦福联合了100多名作者作了一两百页的综述文章，他们甚至提议说将这一类模型叫做基础模型，可以见它对整个领域的影响力是有多大。

首先我们看一下标题，标题是说Attention Is All You Need，就是说你就需要注意力就行了。当然在英语中这也是一句合法的话，就是对小孩说，集中一下注意力，不要东看西看。这个标题成为了一个梗。你要出文章，就把这个词换成任何跟你想要的词，只要你换成这个词，基本上你的文章能够上头条。然后我们来看一下作者，这里面有八个作者，作者绝大部分都是在Google，然后有两个作者不在Google，他做了一个注释，注释上面写的是这个是这两位作者在Google应该是实习的时候完成的工作。另外比较有意思的是这篇文章每一个作者后面都打了一个星号，星号