论文
文章平均质量分 71
xxiaozr
这个作者很懒,什么都没留下…
展开
-
论文Visualizing and Understanding Convolutional Networks
1 介绍 各个数据集上的表现有很大的提高有几方面的原因:有更多的有标签数据集,更强劲的Gpu,更好的学习策略,例如,dropout. 可是对于模型的内部操作和行为还是没有很深的理解,对于为什么达到这样的表现没有好的科学解释。我们将引进一个技术,可以解决这个问题。我们基于hiton2012的imagenet classification论文的结构,实现了一个变现更好的结构。之后我们翻译 2017-03-17 22:00:29 · 394 阅读 · 0 评论 -
生成对抗网络
生成对抗网络判别器使用多层感知机判断样本来自于生成器还是真实数据 生成网络用随机的噪声经过多层感知机生成样本以迷惑判别器,最大化判别器犯错的可能性网络的损失函数是: D(x)表示 x 属于真实数据而不是生成数据的概率 G(z)表示从噪声 z 生成数据 这是一个极小极大问题,固定G,优化D来最大化V,固定D,优化G来最小化V,两者形成对抗。 如图是训练过程,假设我们已经有一个接近真实分布原创 2017-09-12 14:04:35 · 828 阅读 · 0 评论 -
基于caffe的fcn网络的训练
论文解读: global information 可以揭露 what , local information 揭露 where deep 分类网络当做预训练,微调网络,whole image 当做输入,whole image ground truth 是标签 损失函数是在最后一层的 spatial map上的 pixel 的 loss 和,在每一个 pixel 使用 softmax loss...原创 2017-07-02 22:17:08 · 7318 阅读 · 6 评论 -
论文:Mask R-CNN
Introduction: 通过扩展 Faster R-CNN,增加一个分支来预测 object mask 5fps instance segmentation instance segmentation 需要正确的定位所有的物体的同时,对每一个instance 进行分割 Mask R-CNN 是通过在每个ROI 上增加一个分支预测segmentation mask of each RO...原创 2018-03-19 22:14:44 · 351 阅读 · 0 评论 -
论文:MegDec
提出了一个 Large Mini-Batch Object Detector一 Introduction在图片分类任务中,会使用 large mini-batch 明显提高训练速度,而且还不会影响准确率,例如 ResNet-50 以 8192 或者16000 的batch 训练,可以在 半小时内训练完,且精度没有很多损失 然而在目标检测任务中,mini-batch都很小(2-16)。 ...原创 2018-04-10 15:23:31 · 491 阅读 · 0 评论 -
论文:FPN
Introduction:如图 a 所示,基于 image pyramids 的 feature pyramids ,通过变换目标的 pyramids level 来弥补目标尺度的变化,后来卷积网络,more robust to vairance in scale,但是输入是单尺度的,如图b但是pyramids仍然对结果很重要,但是会开销变大,如图 c,SSD 是第一个试图使用卷积 pyramid...原创 2018-04-18 00:07:38 · 920 阅读 · 0 评论 -
论文:accurate ,large minibatch SGD:Training ImageNet in 1 Hour
Abstract:这篇论文发现,在 ImageNet dataset 上使用 large minibatch 会导致优化困难,但是当这个问题解决了,模型具有更好的泛化能力,并且没有精度上的损失为达到这个目的,我们提出了 hyper-parameter-free linear scaling rule,用来调整学习率,学习率是有关于 minibatch size 的一个函数,还提出了一个 warmu...原创 2018-05-18 15:55:38 · 5828 阅读 · 1 评论 -
论文:Deep MANTA
Abstract:提出 Deep Many-Tasks 方法来对一个图片进行多任务车辆分析,包括车辆检测,部分定位,可见性描述和 3D维度估计1.Introduction为了获得周围车辆的速度和方向,3D 车辆定位和方向的预测十分重要。为了很好的交通理解,对周围车辆的描述也很重要,例如车大灯的定位可以帮助确定车辆的方向,车辆部件可视性有助于整体场景的解释。我们提出了一个方法来从单个 image 得...原创 2018-06-04 11:02:01 · 1001 阅读 · 0 评论 -
论文:Deep Residual Learning for Image Recognition
Abstract:更深层的网络训练十分困难,我们提出了残差网络来实现深层网络。我们重新定制了层间的学习是参考 layer input 的残差函数,而不是一个没有参考的函数。Introduction:是否学习更好的网络就是简单的堆积更多的层?一个障碍便是梯度消失或者爆炸,从训练的一开始便会损害收敛,虽然这个问题可以被 normalization initialization 和 intermedia...原创 2018-05-25 11:27:12 · 1465 阅读 · 0 评论 -
论文:Learning to segment every thing
Learning to Segment Every ThingAbstract提出一个新的半监督训练框架和一个权重转移函数,完成对具有 box 标注但是只有少量 mask 标注的多类别数据集进行实例分割。1. Introduction实例分割函数需要高质量的标注,这些标注的类别目前只有大约100类,使得实例分割现在只是丰富的视觉世界中的一隅。能否不需要对所有的类都具有 mask 标注来完成高...原创 2018-06-24 10:51:57 · 609 阅读 · 0 评论 -
论文:U-Net
Abstract: 提出一个依赖于数据增强的方法来更有效的应用标注样本。我们的结构包括一个收缩路径来获得上下文信息和一个对称的扩张路径进行精确地定位,类似于autoencoder。1.Introduction: 在很多生物成像领域,输出需要包括定位信息,即每一个像素的类别都要知道,同时,样本数在生物医学领域比较少。[1] 提出了一个方法,通过提供一个 local...原创 2018-07-24 20:41:44 · 1751 阅读 · 0 评论 -
论文:SegNet
Abstract SegNet网络具有以下几个优点:仅在训练好的模型上进行前向计算便可得到平滑的像素级预测;网络层数的加深有助于利用更大的context来进行预测;可以方便的查看任意层特征激活的影响。1.Introduction SegNet由encoder,decoder和softmax分类层组成。因为最深的特征提取层一般因为降采样都具有较小的分辨率,ad...原创 2018-07-24 22:43:59 · 5964 阅读 · 0 评论 -
论文:Path Aggregation Network for Instance Segmentation
Abstract 神经网络中信息传递的方式很重要。本文提出 PANet 网络来增强 proposal-based 实例分割的信息流。具体的,提出bottom-up path augmentation,adaptive feature pooling和complementary branch。1.Introduction Mask R-CNN是一个简单有效的实例分割...原创 2018-08-06 13:54:59 · 1434 阅读 · 0 评论 -
论文:Faster R-CNN
论文: SPPnet 和 Fast R-CNN 在检测问题上减少了运行时间,region proposal 的计算成为了瓶颈。我们提出了Region Proposal Network(RPN).1.Introduction region proposal 和 region-based convolutional 网络使得目标检测有了进步,虽然region-based CNN computa...原创 2017-11-22 17:06:36 · 263 阅读 · 0 评论 -
论文:Fast R-CNN
检测需要目标的准确位置,这带来了两个挑战,一个是大量的proposals,另一个是这些候选框只提供了大概的位置,必须refine,获得准确的位置。1.1 R-CNN and SPPNet R-CNN有三个缺陷: 1)是一个 multi-stage pipeline过程 提取proposals,输入CNN提取特征,使用SVM进行分类,进行bounding-box regressor 2)...原创 2017-11-21 21:56:24 · 245 阅读 · 0 评论 -
论文:ImageNet Classification with Deep Convolutional Neural Networks
1简介: 我们的模型有五层卷积层和三个全连接层组成。移除每一层这个模型的性能就会下降。 2数据 ImageNet是一个拥有大约22000个类别,15百万的有标签的数据集。ILSVRC使用这个数据集的子集,大约包含1000个类,每一个类大约有1000个图片。总的来说,大约有1.2百万的训练数据,50000的检验数据和150000的测试数据。 Im翻译 2017-03-29 16:27:19 · 321 阅读 · 0 评论 -
Vgg net
vgg的网络结构十分简洁,整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化(2*2)。 vgg拥有五段卷积,同时每段卷积内有两到三个卷积层,每段尾部会连接一个最大池化层。 使用多个3*3堆叠来代替大尺寸卷积,两个3*3代替一个5*5,三个3*3代替一个7*7。可以减少参数,同时增强非线性变换能力,使cnn对特征的学习能力更强。 认为1*1没有3*3的效果好。翻译 2017-05-15 21:39:36 · 498 阅读 · 0 评论 -
Inception 模型
inception v1: 去除了最后的全连接层,使用全局平均池化层来代替,因为全连接层的参数很多,基本上占据了百分之九十的参数,而且全连接层会带来过拟合的问题。 采用了inception module。 Hebbian 原理:神经反射活动的持续和重复会导致神经元连接稳定性的持久提升,当两个神经元细胞A和B距离很接近,并且A参与了对B的重复持续的兴奋,那么某些代谢变化会翻译 2017-05-09 17:18:06 · 7963 阅读 · 0 评论 -
论文: TextBoxes
在SSD的结构上做了一些改进使之更适合场景文字识别。 文字识别有助于区分文本和背景。Contribution:一个端到端的场景文字识别模型。结合了检测和识别。高效。文字检测可以大概分为三类: 1. Character-based: 单个字符的检测,之后组成words 2. Word-based:类似于一般的目标检测方法,生成一些word candidate,送到CNN中训练 3. Text-原创 2017-08-19 14:42:23 · 2042 阅读 · 0 评论 -
论文:Seglink
普通的检测方法并不适合文字检测: 1.word/line bounding box 有比较大的aspect ratios 2.text 具有一个明确的方向对于上述问题提出一个方法:segment and link 一个 segment 是一个覆盖一个word一部分的有方向的box(对于多个词组成的text line同样适用) 一个link 是连接一对segments,表明它们属于同一个wo原创 2017-08-22 16:19:47 · 3722 阅读 · 0 评论 -
Disco GAN
从一种模态到另一种模态的变换 通过DiscoGAN来寻找 cross-domain relations 定义一个生成器网络 Gab和一个判别器网络 Db,同理一个生产网络 Gba 和一个判别网络 Da。 每一个生成器都讲一个64*64*3的 image 输入到一对 encoder-decoder 中,输出 64*64*3 ,encoder网络是卷积,decoder 是反卷积 判别器网络和原创 2017-10-17 09:57:07 · 859 阅读 · 0 评论 -
论文:pix2pix
使用条件对抗网络进行 image-to-image的转换 最小化predicted和groundtruth的欧几里得距离(实际距离)会使结果模糊 我们需要一个loss 学习到high-level goal,like”make the output indistingguishable from reality” GAN可以做到这个条件GAN 在条件GAN的基础上再增加一个L1或者L2 di原创 2017-11-03 17:20:15 · 2241 阅读 · 0 评论 -
论文:Deeplab_v1
DCNN的最后一层对物体分隔的局部信息不够清楚,即DCNN最后一层都是高等级的特征,缺少局部信息。在DCNN的最后一层加上CRF解决这一个问题。 DCNN在high-level水平上取得了很大的成就,比如image classify,object detection等。这可以部分归功于DCNN的built-in invariance,可以让网络一层一层的提取特征。 但是这样会阻碍low-leve原创 2017-11-16 17:20:31 · 3658 阅读 · 0 评论 -
论文:DCGAN
这篇文章将CNN应用在GAN上。 在传统的CNN结构上主要做了一下三个方面的修改: 1) 使用strided convolutions代替deterministic spatial pooling functions。这样可以使网络自己学习到spatial function 2) 消除全连接层。global averaged pooling 虽然可以使模型stability但是会hurt co原创 2017-11-04 20:37:27 · 706 阅读 · 0 评论 -
论文:Speed/accuracy trade-offs for object detectors
比较主流的目标检测网络,Faster R-CNN , R-FCN , SSDIntroduction:目标检测网络中, mPA。。。 运行时间和占用内存也很重要,好的模型经常依赖于model ensemboing 和 multicrop 方法,这样对于应用来说too slow. 我们会探索现代检测系统 speed/accuracy trade-off。 主要的贡献如下: 1.对现代卷积检原创 2017-11-29 11:25:39 · 644 阅读 · 0 评论 -
论文:Deeplab_v4
摘要:DCNN应用于语义分割有三个困难: 1. 降低特征的分辨率 2. 多尺寸目标的存在 3. invariance 降低 localization 准确率 第一个困难,移除了DCNN最后几层max pooling 层的下采样操作,并且对之后所有的卷基层upsample the filters. 使用artous convolution recover了full resolution原创 2017-11-17 21:32:06 · 3356 阅读 · 2 评论 -
SSD的理解及应用
传统的目标检测会在 subimage 中的所有尺寸的box 进行检测,这种方法会检测所有可能的位置和尺寸,十分困难,例如fast-rcnn SSD 会在网络中学到固定尺寸的box ,对和ground truth 重合度高的框,输入到loss,进行检测。对bounding box 的坐标进行预测,将目标检测的问题转化为坐标的回归问题。 在不用知道类别也可以定位的先验知识下,使用深度网络输出一些b...原创 2017-08-10 20:26:24 · 6184 阅读 · 0 评论 -
论文 Rich feature hierachies for accurate object detection and semantic segmentation(R-CNN)
1 Introduction 人类视觉区的处理过程是有阶梯的,自下而上的过程。而cnn网络也具有这种特点。为之提供了数学模型。这篇论文介绍了cnn在物体识别的表现。这里我们需要解决两个问题,一个是目标定位,另一个是使用很少的已标记检测数据来训练一个高性能的网络。和图片分类不同,检测需要定位物体,我们使用‘recongnition using region’,在每个image中产生2翻译 2017-03-22 15:32:53 · 694 阅读 · 0 评论 -
论文:Cascade RCNN
Abstract:目标检测领域,IoU 被用来定义 positives 和 negatives,当一个detector使用 0.5的IoU时,会产生nosiy detections,但是当提高IoU时,检测的表现又会变差。造成变差的主要原因有两点,一是训练时因为positive samples 的减少而造成的overfitting,另一个是inference时的IoU和训练时IoU的不匹配问题...原创 2018-08-23 00:16:34 · 1965 阅读 · 0 评论