![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Transformer 论文笔记
文章平均质量分 93
Transformer 论文笔记
Tianchao龙虾
这个作者很懒,什么都没留下…
展开
-
TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation 论文笔记
TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation论文链接: https://arxiv.org/abs/2204.05525一、 Problem Statement是否能够设计出一个mobile-friendly Vision-Transformer的网络,能够比mobileNets有更低的延迟性,但能有更好的性能。二、 Direction结合MobileNet和vision transformer。三、原创 2022-04-23 17:28:17 · 3674 阅读 · 0 评论 -
PVTv2 论文笔记
PVTv2: Improved Baselines with Pyramid Vision Transformer PVTv2 论文链接: https://arxiv.org/abs/2106.13797一、 Problem StatementPVTv1 有三个缺点:把图片当成是non-overlapping patches的序列,一定程度上丢失了图像的局部联系。PVTv1的position encoding是固定大小的,对处理任意图片大小不灵活。当处理大分辨率的输入图像时候,计算发杂度相对原创 2021-10-27 10:24:48 · 2004 阅读 · 0 评论 -
Panoptic SegFormer 论文笔记
Panoptic SegFormer Panoptic SegFormer 论文链接: https://arxiv.org/abs/2109.03814一、 Problem Statement拓展Deformable DETR,用于全景分割。二、 Direction全景分割的目标有两种: things 和 stuff。Things是可数的,比如说人、车、单车等;Stuff是无固定形状的和不可数的,比如天空,绿化带等。这两种的区别会导致使用不同的方法去进行预测。因此作者作出了以下设计:设计统原创 2021-10-23 17:01:03 · 995 阅读 · 0 评论 -
Deformable DETR 论文笔记
DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION Deformable DETR ICLR2021 oral论文链接: https://arxiv.org/abs/2010.04159一、 Problem StatementDETR具有收敛速度慢,小目标检测性能差的缺点。 这是因为Transformer attention模块在处理图像特征图的时候的限制。目前很多都是使用多层特征图进行检测,但是高分辨率的原创 2021-10-23 11:35:59 · 2790 阅读 · 1 评论 -
DETR 论文笔记
End-to-End Object Detection with Transformers DETR 论文链接: https://arxiv.org/abs/2005.12872一、 Problem Statement目前的检测器需要许多hand-designed components,比如NMS,anchor generation或者window centers等。二、 DirectionDETR简化了detection pipeline,使用了CNN backbone,transform原创 2021-10-21 16:23:46 · 1220 阅读 · 1 评论 -
Segformer 论文笔记
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers SegFormer 论文链接: https://arxiv.org/abs/2105.15203代码链接: https://github.com/NVlabs/SegFormerDemo链接: https://www.bilibili.com/video/BV1MV41147Ko/一、 Problem StatementSETR原创 2021-09-22 13:32:56 · 4488 阅读 · 3 评论 -
SETR 论文笔记
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers SETR 论文链接: https://arxiv.org/abs/2012.15840一、 Problem Statement传统的CNN网络在语义分割方面通常是encoder-decoder结构,通过encoder逐渐降低分辨率的大小,增大感知域来获取特征信息。而decoder用于对encoder生成的特征表示进行像素原创 2021-09-08 16:54:18 · 1398 阅读 · 0 评论 -
Pyramid Vision Transformer 论文笔记
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without ConvolutionsPVT论文链接: https://arxiv.org/abs/2102.12122一、 Problem Statement提出一个类似于CNN中的pyramid 结构,使得Transformer结构适用于多种dense prediction task。二、 Direction采用4x4大小的image patch作原创 2021-09-04 11:04:22 · 1375 阅读 · 0 评论 -
ViT 论文笔记
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALEViT论文链接: https://arxiv.org/abs/2010.11929一、 Problem Statement探索在视觉任务上使用transformer结构。二、 DirectionVision Transformer 直接对sequences of image patches进行classification。三、 Method先来看原创 2021-09-02 14:45:06 · 760 阅读 · 0 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文笔记
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文链接: https://arxiv.org/abs/2103.14030一、 Problem Statement目前在vision task上使用transformer有两个挑战:scale difference。 在目前的transformer-based的方法中,tokens通常都是固定大小,对于vision task不适用,因为视觉的元素可以在尺度原创 2021-06-10 10:09:07 · 263 阅读 · 0 评论 -
A Survey on Visual Transformer 论文笔记
A Survey on Visual Transformer论文链接: https://arxiv.org/abs/2012.12556一、 Problem Statement本文是transformer的综述。二、 DirectionFormulation of TransformerVision Transformer三、 Method1、 Formulation of TransformerTransformer 一开始是用在NLP领域的。它主要是由相同结构的多个encoder,原创 2021-06-04 08:50:57 · 407 阅读 · 0 评论