搞懂Transformer

文为李弘毅老师【Transformer】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。

1 内容简述

抛开Transformer的内部结构,Transformer其实就是一个seq2seq的模型,其中用到了大量的self-attention layer。本文会试图讲明白什么是self-attention layer。

2 seq2seq的常用模块

之前使用最广泛的seq2seq的模块就是RNN。RNN可以分为单向的和双向的。如果是单向的RNN,输出中的每个time step会有一些信息丢失,比如单向的RNN在下图中产生 b 3 b^3 b3的时候就只考虑了 [ a 1 , a 2 , a 3 ] [a^1, a^2, a^3] [a1,a2,a3]。而双向的RNN输出的每个time step都考虑了输入的所有信息,比如双向的RNN在下图中产生 b 3 b^3 b3的时候就考虑了 [ a 1 , a 2 , a 3 ] [a^1, a^2, a^3] [a1,a2,a3] [ a 3 , a 4 ] [a^3, a^4] [a3,a4]

但是RNN有一个不好的地方就是它的计算很难并行化,比如我要算 b 4 b^4 b4的时候,就要等前几个结果都出来了,才能算。为了解决这个问题,就有人提出了CNN来替换RNN。

1-D CNN的模块介绍可以参见这里。虽然CNN的计算可以并行处理,但是,CNN的kernel_size一般会比较小,输出的某个time step想要考虑到全局的信息,就要把CNN叠很多层。

然后本文的重点就由此引出了,self-attention可以同时解决这两个问题,也就是既可以让每个time step的输出考虑了全局的输入,又可以并行计算。
t1

左图为RNN,右图为CNN

3 Self-attention

self-attention最早出自google的这篇Attention Is All You Need,这篇文章比较难读懂,但它本身并不是那么神秘,一个非常直观的理解就是,self-attention是一个可以替代RNN的东西。下面就来剖析一下这个self-attention。我们的目的是输入一个序列 a a a,得到一个序列 b b b
t0

假设我们的输入是 x x x,首先要对 x x x进行一次embedding,让它变到我们需要的维度,我们记这个embedding的结果为 a a a

a = W x a=Wx a=Wx

然后,我们要让这个 a a a再分别乘以三个矩阵,self-attention中最为重要的三个东西query, key和value。

q : q u e r y ( t o   m a t c h   o t h e r s ) q = W q a k : k e y ( t o   b e   m a t c h e d ) k = W k a v : v a l u e ( i n f o r m a t i o n   t o   b e   e x t r a c t e d ) v = W v a q: query (to\ match\ others)\\ q = W^qa\\ k: key (to\ be\ matched)\\ k = W^ka\\ v: value(information\ to\ be\ extracted)\\ v = W^va\\ q:query(to match others)q=Wqak:key(to be matched)k=Wkav:value(information to be extracted)v=Wva

然后,我们会把每一个q去对k做attention,所谓的attention就是塞两个向量进去,然后吐出来一个表示两个向量相关性的数值 α \alpha α。attention的方法有很多种,在Attention Is All You Need中,所使用的叫做scaled dot-product attention。

α 1 , i = q 1 ⋅ k i / d \alpha_{1, i} = q^1 \cdot k^i / \sqrt{d} α1,i=q1ki/d

为什么要除以这个 d \sqrt{d} d 呢?因为当 q q q k k k的维度很大时,它们内积的variance就会很大,所以要除以一个 d \sqrt{d} d 来scale一下。

最后还要对 α \alpha α做一个softmax,得到 α ^ \hat{\alpha} α^。大致的流程如下图所示。
t2
这个 α ^ \hat{\alpha} α^其实就是每一个time step的value的重要性。用这个 α ^ \hat{\alpha} α^对每个time step的value进行一个加权,就得到了self-attention的结果 b b b。比如 b 1 b^1 b1就可以通过下式计算得到
b 1 = ∑ i α ^ 1 , i v i b^1=\sum_i{\hat{\alpha}_{1, i}v^i} b1=iα^1,ivi

这样得到的 b b b是考虑了所有的输入的,而且无视输入之间的远近,完全通过学习attention来获取需要的value,其示意图如下所示。
t3
更重要的是,以上的过程都是可以并行计算的。因为每个time step的计算都是独立的,我们可以把它们concat到一个大的矩阵里,然后一起计算,示意图如下所示。
t4

4 Multi-head Self-attention

self-attention是可以做成multi-head的,所谓multi-head,其实就是把 q q q k k k v v v分裂成多个,然后每个分别在自己的head内做self-attention,然后把结果再concat起来,如果得到的结果维度不是我们想要的,那么再乘以一个矩阵就可以了。

做成Multi-head的目的是让不同的head去学到不同的东西,比如有的head学局部的信息,有的head学全局的信息。
t5

5 Positional Encoding

然而,从之前的整个流程可以看出来,self-attention是不会去关心输入的time step顺序的,任何一个输出,time step是 1 1 1还是 T T T,对self-attention来说都是一样的,李老师很形象地称之为“天涯若比邻”。

为了增加位置的信息,就会给 a a a加上一个神奇的人为预先设定好的向量 e e e,有了这个 e e e之后,模型就可以知道输入的位置信息了。
t6
那为什么是 e + a e+a e+a,这样不是把 a a a的信息给搅乱了吗?会什么不是直接concat上去变成 [ e , a ] [e, a] [e,a]呢?我们不妨来试试concat的话会如何,不过既然是位置信息,我们需要concat到 x x x上。假设我们有一个和位置有关的向量 p p p p p p是一个one-hot的向量,表示当前的 x i x^i xi是在第 i i i个time step上。那么在做embedding的时候,我们也需要把embedding的矩阵 W W W变大,而 W W W又可以拆成 W i W^i Wi W p W^p Wp。根据矩阵的计算方法,其结果就相当于给 a a a加了一个值,这个值也就是之前提到的 e e e的。可见, e + a e+a e+a和对 x x x进行concat是等效的。
t7
这里有一个比较神奇的地方,就是这个 e e e是个什么东西,为啥这么灵?换成其他的灵不灵?这就不得而知了。

论文中的position encoding用的是

P E ( p o s , 2 i ) = s i n ( p o s / 1000 0 2 i / d m o d e l ) P E ( p o s , 2 i + 1 ) = c o s ( p o s / 1000 0 2 i / d m o d e l ) PE_{(pos, 2i)} = sin(pos / 10000^{2i/d_{model}}) \\ PE_{(pos, 2i+1)} = cos(pos / 10000^{2i/d_{model}}) PE(pos,2i)=sin(pos/100002i/dmodel)PE(pos,2i+1)=cos(pos/100002i/dmodel)

这是一个不用学习的参数,作者也试过让模型自己去学,但结果差不多。作者选择这个不用学习的版本是为了让模型可以处理比训练时遇到过的序列更长的序列。

也有人把这个可视化了,可以参见illustrated-transformer

6 Transformer

从上文中可以看出,self-attention是可以替代RNN的,实际操作中,也就是把RNN替换成self-attention就结束了。

接下来让我们来看看下面这幅经典的Transformer的图,现在看起来应该是亲切了不少。这个图的左半个结构是Encoder,右半个结构是Decoder。把图中的Multi-Head Attention想象成RNN就可以了。Emmm…感觉也不需要额外的说明了。值得注意的是,这里的Masked Multi-Head Attention就是指是对已经产生的序列做attention,比如我们翻译的时候,是塞一个起始符进去,然后一个字一个字生成,直到遇到终止符。
t8

参考资料

[1] 李宏毅-transformer
[2] illustrated-transformer
[3] Attention Is All You Need

  • 11
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Transformer是一种广泛应用于图像处理领域的模型,它在一些重要的视觉任务上取得了显著的成果。其中,一些主要的应用包括: 1. 图像检测和分割:DETR是一种使用了卷积神经网络Transformer的简单而灵活的检测和分割方法。这种方法在目标检测和语义分割任务上取得了非常好的性能。 2. 图像分类:Vision Transformer(ViT)是一种只使用Transformer的图像分类方法,它取得了当前最先进的结果,并且减少了训练计算资源的消耗。ViT将图像拆分为小块,并通过线性嵌入序列作为Transformer的输入。 3. 像素级图像补全:Image GPT是一种使用Transformer进行像素级图像补全的方法。它可以根据图像的上下文信息预测缺失的像素,从而实现图像的修复和完整。 4. 车道标记检测:使用Transformer的端到端车道形状预测方法,可以根据图像中的车道线信息预测车道的形状和位置。这种方法在自动驾驶和智能交通领域具有重要的应用。 总之,Transformer在图像处理领域的应用非常广泛,包括图像检测、分割、分类、图像补全和车道标记检测等任务。它通过将图像信息进行有效的编码和处理,取得了令人瞩目的成果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【Transformer】一文搞懂Transformer | CV领域中Transformer应用](https://blog.csdn.net/qq_41094058/article/details/120463774)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七元权

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值