计算机视觉论文研读
文章平均质量分 86
本专栏主要关注计算机视觉领域的论文研读,关注的重点在于目标检测(object detection)以及语义分割(semantic/instance segmentation),包括全监督以及弱监督的方法。
yj_isee
这个作者很懒,什么都没留下…
展开
-
论文阅读-《Relation Networks for Object Detection》
MSRA jifeng dai1.abstract:在目标检测领域,model object之间的关系能够提高检测的准确度,但是这种方法在基于深度学习的模型中还没有很好的work。当下主流的目标检测的方法还是对各个物体进行单独的检测,本文提出了一种object relation module,通过引入不同物体之间的外观和集合关系做interaction,实现对物体之间relation的建模。rela原创 2017-12-02 17:04:13 · 14525 阅读 · 16 评论 -
论文阅读-《BlitzNet: A Real-Time Deep Network for Scene Understanding》
ICCV 20171.Motivation:为了做到实时的目标检测和语义分割 2.Framework 采用的是Resnet50+SSD, ssd这种one-stage的检测器天生适合和分割一块做。上采样过程用到的block如下图所示,除了正常的skip connection之外,还用上了residual connection 3.Experiments作者在VOC2007/2012以及COCO原创 2017-08-15 15:52:47 · 3268 阅读 · 0 评论 -
论文阅读-《Focal Loss for Dense Object Detection》
FAIR. ICCV2017 Oral Kaiming He & RBG1.Motivation一直以来,one-stage detector都以快著称,yolo刚发布的时候表明了是主打速度的,但是这些one-stage detector的精度要比two-stage detector,比如faster rcnn差不少。本文的目的就是为了探讨为什么one-stage detector相比two-sta原创 2017-08-10 15:01:56 · 11636 阅读 · 2 评论 -
论文阅读-《CoupleNet:Coupling Global Structure with Local Parts for Object Detection》
中科院nlpr实验室 ICCV20171.Motivation这篇文章主要是在R-FCN的基础上改的。其主要的观点就是R-FCN可以看成是对一个proposal,用一些position-sensitive的weak classifier去做检测,然后把这些classifier的检测结果ensemble起来(position-sensitive RoI pooling),因此作者指出这张方法没有考虑到原创 2017-08-11 14:50:55 · 4118 阅读 · 1 评论 -
论文阅读-《Densely Connected Convolutional Networks》
CVPR 2017 Best PaperMotivation:最近的一些卷积神经网络都证实了在网络当中加入short connection能够让网络更深、更准确、更高效, 另一方面,最近的一些resnet的变种往往可以用更浅层的模型达到和深层的模型差不多的性能,这些充分说明了现有的卷积神经网络学习得到的很多特征都是冗余的。作者的想法是充分利用skip connection,设计一个dense co原创 2017-07-23 23:21:49 · 4229 阅读 · 0 评论 -
论文阅读-《Deformable Part-based Fully Convolutional Network for Object Detection》
BMVC 2017 OralAbstract文章指出当前的object detector大都用正框来表征一个object,尽管大多数的object都是non-rectangular的。作者提出的模型能够通过deformable parts来表述一个object。这样的话得到的特征对于物体的形变更加具有鲁棒性,并且能够part的位置信息能够提高目标定位的准确性。Contribution:1.提出了de原创 2017-07-20 19:33:01 · 2260 阅读 · 0 评论 -
论文阅读-《Semantic Segmentation with Reverse Attention》
BMVC 2017 oral code: https://drive.google.com/drive/folders/0By2w_A-aM8Rzbllnc3JCQjhHYnM1.Motivation作者这篇文章的主要目的是为了提高semantic segmentation的网络对于confusion area的预测能力。所谓的confusion area,指的是最终预测的score map上熵值原创 2017-07-22 15:02:38 · 3202 阅读 · 2 评论 -
论文阅读-《RON-Reverse Connection with Objectness Prior Networks for Object Detection》
CVPR 2017 孔涛..HyperNet作者0.Motivation结合region-based的目标检测方法和region-free的目标检测方法。 主要关注两个问题: 1)多尺度目标定位 2)负样本挖掘1.Contribution1)对于多尺度定位,作者提出了reverse connection,类似FPN,增强了low level feature map的语义信息,提高了小目标检测原创 2017-07-15 09:49:33 · 5372 阅读 · 0 评论 -
论文阅读-《Speed/accuracy trade-offs for modern convolutional object detectors》
Google Research0.abstract本文主要对主流的三类object detector进行了speed-accuracy trade-off上的比较。 作者考虑三类”meta-architectures”:faster rcnn 、r-fcn以及ssd faster rcnn和r-fcn是region-based detector,不同的是,faste rcnn里面box clas原创 2017-07-13 14:02:45 · 3960 阅读 · 0 评论 -
论文阅读《Rethinking Atrous Convolution for Semantic Image Segmentation》
Deeplab v31.Contribution:这篇论文和deeplab v2相比,contribution不多,主要是在原来的ASPP模块里面加入了bn,同时引入加入了global context来提高ASPP模块的性能。2.Related work文章主要还是专注于图像多尺度信息的提取,作者总结了目前流行的4中多尺度信息提取的方法,如下图所示: 第一种用图像金字塔作为输入; 第二种采用原创 2017-07-12 16:44:10 · 2489 阅读 · 0 评论 -
论文阅读-《Deep Matching Prior Network:Towards Tighter Multi-oriented Text Detection》
CVPR2017 by Yuliang Liu & Lianwen Jin1.Motivation对于自然文本的检测任务,原来的方法都专注于用矩形框来对文本进行定位。但是实际上因为文本图像存在透视变换等等问题,图像里面的自然文本并不是严格地呈现矩形的。这个时候用矩形框来定位的话会有以下问题: 左边表示用四边形定位的结果,右边表示用矩形定位的结果。 (a)表示用矩形定位会引入不必要的overlap原创 2017-06-18 15:48:26 · 3729 阅读 · 13 评论 -
论文阅读-《Ensemble of Part Detectors for Simultaneous Classification and Localization》
arxiv 20171.Motivation本文关注的是weakly supervised localization。 基本流程如上图所示,输入的是只有Image-level的标签,首先要从数据集里面提取一些initial patterns,然后利用这些initial pattern来训练detector。 这其实是一个典型的鸡和蛋的问题:我们要训练一个好的detector,就必须提供dis原创 2017-05-31 14:08:31 · 566 阅读 · 0 评论 -
论文阅读-《DSSD : Deconvolutional Single Shot Detector》
arxiv 23/1/2017SSD作者Wei Liu的新作Motivation通过增加context的信息来提高目标检测的准确率是一个常见的方法,在SSD当中,作者没有利用到context的信息,因此,作者在DSSD里面尝试通过加入context来改善SSD的性能Framework 上图表示SSD的基本结构,采用的是VGG作为base network,后来有作者新加的SSD layer,然后在选原创 2017-06-15 11:18:00 · 8895 阅读 · 0 评论 -
论文阅读《Spatial Transformer Network》
Google DeepMindAbstract:作者说明了CNN对于输入的数据缺乏空间变换不变形(lack of spatially invariant ability to input data),因此作者引入了一个spatial transformer module,不需要额外的监督,能够以data-driven的方式学习得到输入图像的空间变换参数,赋予网络spatial invariant能力原创 2017-05-27 22:01:42 · 6170 阅读 · 0 评论 -
论文阅读-《Joint Object and Part Segmentation using Deep Learned Potentials》
ICCV 2015 UCLAAbstract从图像中分割出物体并把他们分解成各自的semantic part是CV中detailed object understanding的基础。作者在这篇论文中提出了一种joint semantic object and part segmentation的方法。通过利用object-level的信息来引导part segmentation,同时part seg原创 2017-04-17 14:35:26 · 2078 阅读 · 0 评论 -
论文阅读-《Objects as context for part detection》
Abel Gonzalez-Garcia arxiv 28/3/2017Abstract本文提出了一种利用object context信息的part detection的方法。作者主要用到了三种object-level的信息:object class–object appearance–relative location of parts in objects 其中object class以及ob原创 2017-04-17 09:57:18 · 1280 阅读 · 0 评论 -
论文阅读《DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling》
arxiv 30/3/2017Abstract作者在这篇文章当中把目标检测问题formulate成估计一个非常大但是很稀疏的概率分布,变量就是所有可能的bounding box,一张输入图像对应的bounding box空间很大,概率P就是bounding box属于各个类别的概率。因为只有极少一部分的bounding box里面是有物体的,因此这个P是稀疏的。只在一些特定的bounding box原创 2017-04-15 15:17:58 · 4863 阅读 · 8 评论 -
论文阅读-《Mask R-CNN》
arxiv 2017/3/20 KaiMing He & Rbg1.ContributionPropose a general instance segmentation method called Mask-RCNN, which extends Faster R-CNN by adding a branch for predicting an object mask in parallel w原创 2017-03-22 15:00:31 · 10059 阅读 · 7 评论 -
论文阅读-《Object Detection Networks on Convolutional Feature Maps》
收录于IEEE Transactions on Pattern Analysis and Machine Intelligence 20151.Background&Motivation论文的背景是Fast/Faster R-CNN成为当时的检测精度最高的框架,同时Resnet刚发表不久,这个时候,基于回归模型的目标检测框架还没有发表。作者在论文一开始的时候提出了,基于region propos原创 2017-03-14 23:53:51 · 2543 阅读 · 0 评论 -
论文阅读-《Learning Deep Features for Discriminative Localization》
收录于CVPR2016关于全连接层不能保持spatial information的理解 相比全连接层,卷积层是一个spatial-operation,能够保持物体的空间信息(translation-variant)。比如一个物体原来在左上角,卷积之后的结果feature-map在左上角的激活值大。如果这个物体移动到右下角,那么卷积之后的feature-map同样会在右下角的激活值比较大。但是对于原创 2017-03-15 08:28:12 · 12929 阅读 · 7 评论 -
论文《Inside-Outside Net: Detecting Objects in Context with skip pooling and Recurrent Neural Networks》
收录于CVPR20161.Contribution本文主要关注目标检测过程中的上下文信息以及多尺度信息两个方面,提出了Inside-Outside Net: Inside Net: 采用skiping pooling的方式连接不同卷积层输出的feature map,实现多尺度特征的融合 Outside Net: 采用IRNN的结构,整合contextual infomation Perform原创 2017-03-19 14:11:08 · 9782 阅读 · 0 评论 -
论文阅读-《Training Region-based Object Detectors with Online Hard Example Mining》
收录于CVPR2161.Abstract作者指出了region-based的分类器的训练过程当中有很多超参数需要调节,这样使得训练过程很复杂。因此他们提出了一种online hard example mining的方法,可以在训练的过程中自动选择那些hard example加入训练,这样使得训练更加有效和快速,同时能提升网络的性能。2.Introduction作者指出了object detectio原创 2017-03-19 23:25:55 · 5047 阅读 · 0 评论 -
论文阅读-《Deformable Convolutional Network》
arxiv 3/17/20171.Abstraction文章一开始就说到:卷积神经网络因为卷积核的几何形状是固定的,对几何变换的模拟能力受限。因此,本文中作者引入了两个新的module,来增强网络对于几何变换的建模能力,分别是deformable convolution和deformable roipooling. 基本的思想就是用带偏移的采样代替原来的固定位置采样,而且这个偏移量是可以通过学习得到原创 2017-03-25 21:34:42 · 15022 阅读 · 2 评论