ML笔记:关于Transformer

参考:
[1]. https://aistudio.baidu.com/aistudio/projectdetail/2025419?channelType=0&channel=0
  1. Attention

个人认为所谓 attention机制,其实只是一种启发自人类的“注意力”的结构。至于有没有“注意力”的实际作用,那不好说,反正加进去了,模型有效果,就行。

1.2 self-attention

根据参考[1]中列出的图片,其实可以这样理解:假定输入为a,那么进行如下计算:

得到的b就是attention的值

1.3 multi-attention

其实就是把self-attention变得更加复杂了。这里就不搬运了,可以直接看参考[1]

  1. Transformer整体结构及编码器、解码器

下面是我们通常看到的架构:

其中Encoder如下:

解码器部分:

  • 红框1:mask操作,是对当前单词和之后的单词做mask操作(NLP中的操作)因为是预测后面的词,所以不能让网络看见后面的词

  • 红框2:进入Decoder的两条数据,是由Encoder产生的k、v,Decoder只提供q。

3. ViT

  • ViT的思路很简单:

直接把图像分成固定大小的patchs,然后通过线性变换得到patch embedding,这就类比NLP的words和word embedding,由于transformer的输入就是a sequence of token embeddings,所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。

  • ViT模型原理如下图所示,其实ViT模型只是用了transformer的Encoder来提取特征(原始的transformer还有decoder部分,用于实现sequence to sequence,比如机器翻译)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值