Restnet , transformer and vit总结

transformer可能是替代了restnet
transformer文章 attention is all you need
restnet 文章 deepl residual learning for image recognition

  • restnet

task
解决layer层多了,result 的train error增加了,即defradation problem
method
added the identity layers
copy from the shallower model
网络结构请添加图片描述
其中
shortcut connection 就是跳过1 or many层。
y = F(x, {Wi}) + Wsx ,这个Ws就是为了match the dimensions
都加到这个stacked layer 堆叠层请添加图片描述
这种设计不增加网络复杂性,仍然用SGD的 backpropagation(反向传播)来实现端到端的训练
结果对比
plain net (只有stacked layers)
rest net (加了shortcut)
Residual Representations
For vector quantization,encoding residual vectors [17] is shown to be more effective than encoding original vectors.
也就是说residual 向量比原始的编码向量更好
them are powerful shallow representations for image retrieval and classification
是图像检索和分类的一种强大的浅层表示方法。

  • transformer
    一个宝贝综述
    https://www.cvmart.net/community/detail/4032
    结构

插播
CNN是可以同步(parallel),RNN是异步必须等着上面的整完下面的再弄,似乎是上面的output是下面的input。但CNN就很独立,做自己,不管那么多他们可以一起进步。
CNN也有问题,可能会信息丢失,不会考虑前面全部的vector,没有记忆功能。所以说咱就给它shortcut,把前面的信息加进来。

为了解决这个CNN的问题
出来一个self-attension
q(query),k(key),v(原本提取出来的信息)
q*k 看和v的match程度
去看上面的链接,他写的比较明白!!!!!
muti-head-attention就是把上面单个出来的结果给它concat一下,然后再调成和一个一样的维度

embadding
就是做这个scaled inner product 就是缩放内积,转化成feature?
经历了这个
CNN+attention就是yyds 又能并行,又可以记录下前面的信息也放到网络里面

position encoding是由于整个模型的设计中所有的input 都是统一对待的,而在NLP的任务中,所有的输入的顺序是很关键的,一句话如果字的顺序发生颠倒,可能会变成完全另一个意思,因此,加入一个了position encoding 的特征来表示这个input (文中用token 表示) 是输入的顺序信息.

scale dot-product attention 中的mask 则是为了防止在实时翻译任务中, 输出利用到尚未当前时刻之后的输入的信息,在全量的input上面加上一个mask 这样就可以防止模型未卜先知利用到当前时刻后的输入的信息,防止实时NLP中任务中实际无法得到这些信息造成的问题.

这个引用的https://zhuanlan.zhihu.com/p/326892493 这个文章

vit2021 这个需要再继续看一下
文章:AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
请添加图片描述

效果
在大规模的数据集上面做了预训练之后效果就会发生根本性的改变
请添加图片描述
下一期maybe
Vision Transformer and Swing Transformer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值