DETR
文章平均质量分 87
快乐小隆
这个作者很懒,什么都没留下…
展开
-
DETR个人学习笔记(五)之DETR的网络结构
接下来正式介绍DETR的网络结构。先来回顾一下目标检测,目标检测就是要定位和识别。定位就是要找到物体所在位置,即Bounding box,边界框,识别就是确定物体是什么,要给出物体标签(Category label)和置信度得分(Confidence score)。比如下图就给出了物体的类别、置信度标签和位置边界框。对于目标检测,卷积神经网络的方法,它会确定图片中物体所在的边界框,但是这样的边界框可能有多个,所有需要后处理,进行非极大抑制处理,然后得到目标边界框下图展示了基于Faster R-CN转载 2022-05-23 22:24:06 · 2028 阅读 · 0 评论 -
DETR个人学习笔记(四)之Transformer的Decoder
本文如无特殊说明,所有文字均匹配的是文字下方的第一张图片。接下来来介绍Teansformer的Decoder。对于Decoder,如果把中间部分拿掉的话(下图画红圈部分),它和Encoder block就比较相似了。中间是一个Multi-Head Attention。之前有介绍过,这是Decoder和Encoder之间的Cross Attention。其中K、V来自于Encoder,而Q来自于Decoder。另外Decoder和Encoder的不同还有,Decoder的Multi-Head Atten转载 2022-05-23 15:58:37 · 1503 阅读 · 0 评论 -
DETR个人学习笔记(三)之Transformer的Encoder
下面我们再详细的介绍一下Encoder。这些encoder他们有相同的结构,但是不共享参数(share weights)。之后每个encoder的还可以再分成两个sub-layers。这里两个sub-layers组合成的整体被叫做”encoder的broken“具体而言就是,Self-Attention和Feed Forward Neural Network(前馈神经网络)顺带一提,可以看到Decoder有Self-Attention,还有Encoder-Decoder之间的Attention,还有F转载 2022-05-23 13:52:00 · 1235 阅读 · 0 评论 -
DETR个人学习笔记(二)之Transformer架构概述
下面来了解Transformer的原理。首先我们来回顾一下RNN,RNN的encoder做编码的时候对于输入的句子需要一个个的处理。在左边的部分可以看到,在处理句子的时候,我们需要一个词一个词的将词语输入RNN。RNN有梯度消失的问题(vanishing gradient problems)。对于Transformer encoder,它可以把整个句子同时输入编码器,也就是把整个句子并行的处理。使得每个token可以关注到别的token,而不仅是关注到自身。这里的token是指把句子分割成词,或者分割成词转载 2022-05-13 11:11:09 · 543 阅读 · 0 评论 -
DETR个人学习笔记(一)之DETR发展与概述
本文是根据CSND上的课程DETR原理与代码精讲所打的逐字稿,加上一些我自己不理解的名词的解释。第一节课是免费试听的,所以就把文章发布出来了。之后那个课程的逐字稿我就不设置为公开可见了。文章是针对自己在听课的时候听一遍老是听不懂,课后再想回看太麻烦,知识架构不完整然后打字帮助一下自己。DETR是Facebook所提出的使用Transformer进行目标检测的一个方法。论文发表于2020年的ECCV上。文章的题目是End-to-End Object Detection with Transformers转载 2022-04-30 13:22:08 · 2081 阅读 · 0 评论