Transformer Notes takes3

最新推荐文章于 2024-09-16 20:21:57 发布

The screw

最新推荐文章于 2024-09-16 20:21:57 发布

阅读量38

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45293612/article/details/134613725

版权

Comment: 15 pages, 5 figures

Decoder和Encoder是什么？

Decoder把symbolic的特征，转换到continuous的特征；Encoder把continuous的特征，转换到symbolic的特征

Attention是什么？

Attention计算了 $so f t W e i g h t = M e t h o d (q u ery, k ey)$ ，Method中有可以有多种选择，可以认为是query在key中的位置信息。Output等于 $\sum{softWeight * value}$ 。attention中weight是动态计算的，卷积网络中weight是提前训练的，所以attention在不同的输入中的计算过程也是不一样的（动态网络weight）。

Scaled Dot-Product Attention

Transformer中的Attention为Scaled Dot-Product Attention，其使用矩阵实现了GPU加速。query表示为Matrix $Q$ ; key 表示为Matrix $K$ ，维度为 $d_k$ ; values表示为Matrix $V$ ，维度为 $d_v$ 。 $d_k = d_v$ ? maybe 。

$Softmax(\frac{QK^T}{\sqrt{d_k}}) V$

$\frac{1}{\sqrt{d_k}}$ 的引入是因为在 $Softmax(QK^T)$ 中，大的数值会导致梯度变得很小。所以引入这个常量。文章在角注中说明了为什么选取这个数值。

Feed-Forward Networks

线性变换+ReLU+线性变换。或者说，1x1卷积+ReLu+1x1卷积

$FFN(x)=max(0, xW_1 +b_1)W_2 +b_2$

Embeddings and Softmax

就是MLP+Softmax。两个embedding layers和pre-softmax linear transformation共享权重。权重乘上了 $\sqrt{d_{model}}$

Positional Encoding

因为Self-Attention没有包含位置信息，为了使用到位置信息，我们需要手动添加位置编码。Transformer提出的位置编码

$PE_{(pos, 2i)} = sin(pos/10000^{2i/d_{model}})$

$PE_{pos, 2i+1} = cos(pos/10000^{2i/d_{model}})$

有如下特性

每一个dimension有独立的位置编码，且相邻的dimension相差很大。我推测是因为相邻的差别要很大，不然会被淹没在输入中，因为相位变化本身很小。
位置编码是不符合函数定义的，sin和cos。这是因为如下两点
如果是线性或者非线性函数，其可以被视为线性函数和非线性函数的叠加。其和网络自身尝试拟合的函数重叠。同时，我推测：输入数据中可能会出现类似的线性或非线性变化，其会导致位置编码实效。
如果是普通函数，当输入尺寸比训练的时候的更长。网络无法去处理这种情况。而sin和cos因为是重复的，所以任何输入长度大小，都可以正常工作。

Jargon

Token: basic units of text/code for LLM AI models to process/generate language.
Tokenization: splitting input/output texts into smaller units for LLM AI models.
Vocabulary size: the number of tokens each model uses, which varies among different GPT models.

To further investigate:

Adam是如何实现优化的
beam search是什么

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。