Transformer
文章平均质量分 93
LN烟雨缥缈
这个作者很懒,什么都没留下…
展开
-
最容易理解的ConViT: Improving Vision Transformerswith Soft Convolutional Inductive Biases
之前的博客介绍了transformer和transformer在CV领域应用的VIT论文,有兴趣的同学可以参考transformer、VIT。VIT虽然在性能上已经达到了目前图像分类的SOTA的程度,但是它需要依赖巨大的数据集,比如Google的JFT都是以亿为单位计算的。显然,作为我们这种个人玩家是无法应用的,那么Facebook继VIT之后,推出ConVit解决了该问题,今天这篇博客就是介绍大家可以应用的在CV领域的transformer-ConVit,话不多说,还是先上连接:ConVi...原创 2021-11-25 19:31:09 · 2734 阅读 · 0 评论 -
最容易理解的AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)解析
之前连载了很多CNN中的注意力机制的相关paper,也介绍了Transformer的原理,包含encoder、decoder、multi-head attention等。如果有兴趣的朋友或者对attention方面基础较差的朋友可以找一下我之前发的相关博客。这篇文章介绍一下将transformer引入到CNN中的文章(Vision Transformer)Vit,它虽然没有DERT早,但是它是将transformer原有结构直接引入CV中的第一篇文章。所以,继上一篇最容易理解的Transfo...原创 2021-11-17 10:25:07 · 3071 阅读 · 0 评论 -
最容易理解的Transformer解析
之前介绍了通道注意力SENET、空间注意力Spatial Transformer Networks、混合域注意力CBAM、坐标注意力CANET、自注意力Non-local Neural Networks和自注意力与混合域相结合的DANET。主流的注意力模型基本都了解到了,那么接下来,介绍一下目前大热的Transformer。 在2017年,Google提出的Attention Is All You Need在NIPS发表,它完全去掉了RNN和CNN的网络结构,而仅仅使用注意...原创 2021-07-02 18:57:53 · 2470 阅读 · 2 评论