李宏毅老师-transformer part2

李宏毅老师的Transformer课程告一段落,烧脑的学习带来满满收获,开阔了人工智能视野。期待下期继续深入探索。
摘要由CSDN通过智能技术生成

慢慢来,会更好!

接下里,我们接着transformer part1,来继续学习Decoder
Decoder有两种,我们会花很多时间来学习AT

在这里插入图片描述

Decoder要做的事情就是把Encoder的输出读进去,至于怎么读进去,等一下见分晓

Decoder如何产生一段文字呢?
首先,要有一个特殊的符号BEGIN,是一个special Token,多加一个特殊的字,代表了开始这个事情
(每一个 Token,都可以把它用一个 One-Hot 的 Vector 来表示,
One-Hot Vector 其中一维是 1,其他都是 0,所以 BEGIN 也是用 One-Hot Vector 来表示)
其次,Decoder会吐出一个向量,这个vector和Vocabulary Size(比如中文词汇量) 是一样的
最后,分数最高的一个中文字,就是最终的输出

在这里插入图片描述

第一次的话只有BEGIN作为Decoder的输出
现在我们把第一次产生的output 机也当做一个输入
循环往复,产生output
在这个过程中,可能会因为一个output error而引发一系列错误呢?

在这里插入图片描述

我们先看一下Decoder的内部结构,不要惊讶哦!

在这里插入图片描述

我们现在把Encoder和Decoder放在一起,稍微比较他们之间的差距
你就会发现
如果我们把 Decoder 中间这一块,中间这一块盖起来
其实 Encoder 跟 Decoder,并没有那么大的差别

在这里插入图片描述

仔细观察的时候,就会发现
Encoder:Multi-Head Attention
Decoder:Masked Multi-Head Attention
让我们一起来看看下图,来理解masked的特点

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值