李宏毅老师-transformer part2

最新推荐文章于 2024-10-16 01:06:03 发布

想研究又不会研究的研究生

最新推荐文章于 2024-10-16 01:06:03 发布

阅读量168

点赞数

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_46675905/article/details/124590170

版权

李宏毅老师的Transformer课程告一段落，烧脑的学习带来满满收获，开阔了人工智能视野。期待下期继续深入探索。

摘要由CSDN通过智能技术生成

慢慢来，会更好！

接下里，我们接着transformer part1，来继续学习Decoder
Decoder有两种，我们会花很多时间来学习AT

在这里插入图片描述

Decoder要做的事情就是把Encoder的输出读进去，至于怎么读进去，等一下见分晓

Decoder如何产生一段文字呢？
首先，要有一个特殊的符号BEGIN，是一个special Token，多加一个特殊的字，代表了开始这个事情
（每一个 Token,都可以把它用一个 One-Hot 的 Vector 来表示,
One-Hot Vector 其中一维是 1,其他都是 0,所以 BEGIN 也是用 One-Hot Vector 来表示）
其次，Decoder会吐出一个向量，这个vector和Vocabulary Size(比如中文词汇量) 是一样的
最后，分数最高的一个中文字，就是最终的输出

在这里插入图片描述

第一次的话只有BEGIN作为Decoder的输出
现在我们把第一次产生的output 机也当做一个输入
循环往复，产生output
在这个过程中，可能会因为一个output error而引发一系列错误呢？

在这里插入图片描述

我们先看一下Decoder的内部结构，不要惊讶哦！

在这里插入图片描述

我们现在把Encoder和Decoder放在一起，稍微比较他们之间的差距
你就会发现
如果我们把 Decoder 中间这一块,中间这一块盖起来
其实 Encoder 跟 Decoder,并没有那么大的差别

在这里插入图片描述

仔细观察的时候，就会发现
Encoder：Multi-Head Attention
Decoder：Masked Multi-Head Attention
让我们一起来看看下图，来理解masked的特点

在这里插入图片描述

最低0.47元/天解锁文章

想研究又不会研究的研究生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫