【学习】从零入门Transformer

最新推荐文章于 2025-09-20 09:39:33 发布

原创

最新推荐文章于 2025-09-20 09:39:33 发布 · 2.3k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细介绍了从零开始学习Transformer的过程，包括RNN在NLP中的应用、Seq2Seq模型及其与Attention的结合，重点解析Transformer的Encoder和Decoder结构，以及其工作流程。通过理解word embedding、Position encoding、Self-Attention和Feed forward neural network，深入掌握Transformer的核心原理。

文章目录

Transformer之前
Transformer

本文记录一下从0入门Transformer的过程

https://zhuanlan.zhihu.com/p/31547842

Transformer之前

说到Transformer，就离不开NLP，就离不开Seq2Seq，毕竟transformer一开始也是和Seq2Seq结合用的。

RNN & NLP

这里先放两个RNN在NLP中的应用，了解一下RNN

1、根据人名判断是哪个国家的，也就是单词分类

RNN收到一个字母，输出更新的隐藏状态和预测的国家分类，到了最后一个字母之后，把国家分类拿出来得到最终的预测。这就是Sequence到一个类的任务。

2、根据国家，生成名字

RNN收到一个字母，输出更新的隐藏状态和预测下一个字母。直到输出终止符，将之前的所有字母合起来，就是最终生成的名字。这是一个状态到Sequence的任务

Seq2Seq

文章：Sequence to Sequence Learning with Neural Networks

其实有了上面两个任务的基础，就理解Seq2Seq是怎么做的了。对输入Seq进行编码，把其中每个单词或者每个字母按顺序输入到RNN中，最终可以得到一个隐藏状态，这个RNN就叫Encoder。然后用这个隐藏状态输入到Decoder中，按照生成名字的方法依次输出预测的单词或者字母，生成输出的Seq。

在这里插入图片描述
那么这就有个问题：从第一个词到最后一个词，走了这么久，隐藏状态到底能不能记得住这么多东西呢？能不能有效的找到输出Seq中第j个词到底和输入Seq中的哪个词关系比较大呢？

这就引出了Attention，目的就是学习输出Seq和输入Seq之间的关系，输出Seq不同位置的词是与输入Seq的某些词有关的，只需要关注这些词即可。

Seq2Seq + Attention

仍然是从代码入手，推荐Pytorch的教程。

先看Encode

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。