【学习】从零入门Transformer

本文记录一下从0入门Transformer的过程

https://zhuanlan.zhihu.com/p/31547842

Transformer之前

说到Transformer,就离不开NLP,就离不开Seq2Seq,毕竟transformer一开始也是和Seq2Seq结合用的。

RNN & NLP

这里先放两个RNN在NLP中的应用,了解一下RNN

1、根据人名判断是哪个国家的,也就是单词分类

RNN收到一个字母,输出更新的隐藏状态和预测的国家分类,到了最后一个字母之后,把国家分类拿出来得到最终的预测。这就是Sequence到一个类的任务。

2、根据国家,生成名字

RNN收到一个字母,输出更新的隐藏状态和预测下一个字母。直到输出终止符,将之前的所有字母合起来,就是最终生成的名字。这是一个状态到Sequence的任务

Seq2Seq

文章:Sequence to Sequence Learning with Neural Networks

其实有了上面两个任务的基础,就理解Seq2Seq是怎么做的了。对输入Seq进行编码,把其中每个单词或者每个字母按顺序输入到RNN中,最终可以得到一个隐藏状态,这个RNN就叫Encoder。然后用这个隐藏状态输入到Decoder中,按照生成名字的方法依次输出预测的单词或者字母,生成输出的Seq。

在这里插入图片描述
那么这就有个问题:从第一个词到最后一个词,走了这么久,隐藏状态到底能不能记得住这么多东西呢?能不能有效的找到输出Seq中第j个词到底和输入Seq中的哪个词关系比较大呢?

这就引出了Attention,目的就是学习输出Seq和输入Seq之间的关系,输出Seq不同位置的词是与输入Seq的某些词有关的,只需要关注这些词即可。

Seq2Seq + Attention

仍然是从代码入手,推荐Pytorch的教程

先看Encoder:
在这里插入图片描述
这里说一下embedding&#x

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值