A MultiPath Network for Object Detection

A MultiPath Network for Object Detection

论文地址

Introduce

本篇论文是Facebook AI的工作,作者改进了目标检测的方法,在COCO数据集上进行实验,相比Seletive Search方法的fast R-CNN,将实验效果进一步提升了66%,在小物体上提高了4倍。作者的改进主要在以下三点:

  • 使用skip connections 融合多层的信息。
  • 使用foveal structure 考虑物体的上下文信息。
  • 使用integral loss函数,提高了位置的精准度。

之前的论文,作者一般都会采用PASCAL和ImageNet数据集进行实验,一般都能做到不错的效果,其中PASCAL都能达到85%的实验效果了,但是在COCO数据集上,所有的方法都表现不好。COCO数据集主要有以下特点: 物体尺度范围比较大,各种大大小小的物体都有,小物体很多,很多方法都在小物体上表现很差,并且COCO的评价标准更为严格。本篇作者就直接提高游戏难度,在高难度的COCO上进行实验,下面详细介绍作者的三个主要改进工作。

Method

目标检测的主要过程就是,提取region proposal,利用CNN提取proposal 特征进行分类和边框回归。本文也沿袭了这一过程,在Fast R-CNN之前的工作,一般来说,都是使用Selective Search,MultiBox这样的利用图像颜色,边缘信息提取region proposal,后来提取区域夜用CNN来替代,本文中作者采取了DeepMask提取区域,这里DeepMask使用VGG网络生成region proposal。接下来就是将region proposal信息传入网络中,提取特征,分类和定位。整个网络提取region proposal以后的过程如下图所示:


这里写图片描述

Foveal Structure

在目标检测中,目标所在的上下文信息对目标的识别有很大帮助,比如说,一个飞机周围的上下文信息一般是天空或者陆地,如果一个飞机出现在一个动物园里,这种可能性就很小了。为了融合上下文信息,作者采用了区域裁剪的方法,在原始的region proposal中心位置,裁剪区域尺度为 1× 1.5× 2× 4× 四种不同倍数的区域,然后进行RoI Pooling,将输出的信息拼接一起,用来分类,就可以得到和上下文相关的信息了。

Skip Connection

以Fast R-CNN为例,使用VGG网络,在conv5层以后,经过一系列的卷积和pooling,特征已经缩小了16倍,一个32*32大小的区域到conv5以后就变成了2*2大小,16*16的区块就变成了1个像素点了,RoI pooling上采样到7*7的时候,很多信息已经损失了,这也是很多目标检测方法在小物体上表现很差的原因。前面已经提到,COCO数据集中有很多小物体,所以直接使用conv5的特征是没法work的。作者使用了conv3,conv4,conv5的信息,使用figure1这种方式进行连接,为了特征降维,作者使用1*1的卷积。

Integral loss

Fast R-CNN的损失函数如下所示:

L(p,k,t,t)=Lcls(p,k)+λ[k1]Lloc(t,t)(1)

公式中 p 表示预测的属于某类概率,k true class, t 预测的边框位置, t是真正的边框位置。第一项代表分类的损失,后面的表示位置损失。那IoU阈值为50评价标准为例,当检测的边框和ground truth重合度大于50,说明预测正确, 否则 k=0
但是第一项存在以下的缺点,所有阈值大于的50的都是同等的,例如100%重合和50%重合都是正确。作者提出了改进方法,更高的重合度应该有更多的得分,作者提出的改进的分类损失函数如下:
10050Lcls(p,ku)du(2)

ku 是不同阈值u对应的值,由于公式(2)是连续的积分,作者使用du = 5使用求和公式,修改的目标函数公式(3)所示:
L(p,k,t,t)=1nn[Lcls(p,k)+λ[k1]Lloc(t,t)](3)

实验中,选取n =6, u{50,55,.....,75}

Experiment

最后贴几张对比实验的结果:


这里写图片描述
这里写图片描述
这里写图片描述

Conclusion

论文作者提出了多尺度,融合上下文这两种在16年cvpr的hyperNet,ION也见过类似的思想,但是目标函数进行积分处理,的确很有创新的地方。

Reference

A MultiPath Network for Object Detection Sergey Zagoruyko, Adam Lerer, Tsung-Yi Lin?, Pedro O. Pinheiro, Sam Gross, Soumith Chintala, Piotr Dollár

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Action-net是一种用于动作识别的多路径激励模型。它通过同时考虑多个视角和多个时间尺度的信息,提高了动作识别的准确性。模型的核心是一个多路径卷积神经网络,它可以从不同的视角和时间尺度提取特征。此外,模型还使用了一种新的激励机制,可以增强不同路径之间的信息交互,从而进一步提高了准确性。 ### 回答2: Action-Net是一个用于动作识别的多路径激发(Multipath Excitation)模型。动作识别是计算机视觉领域的一个重要任务,旨在从视频中自动识别和分类不同的动作。Action-Net通过采用多路径激发方法,提高了动作识别的准确性和性能。 多路径激发是一种模型设计技术,通过在网络架构中引入多个并行路径,每个路径分别学习不同的特征表示进行动作识别。这样的设计可以捕获到不同级别、不同尺度和不同分辨率的特征信息,提供更加全面准确的动作表示。 Action-Net利用了深度神经网络的强大表达能力,将视频输入分为多个时间段或空间尺度,并在每个时间段或空间尺度上构建不同的网络路径。每个路径在不同的时间尺度或空间分辨率上学习不同的特征表示,这些特征表示可以捕捉到动作的关键信息。 通过引入多路径激发机制,Action-Net可以同时学习到描述全局结构和细节特征的表示。此外,多路径激发还可以减轻网络在学习过程中的过拟合问题,提高了模型的泛化能力。 在实验中,Action-Net在各种动作识别任务上取得了优秀的性能。与传统的单一路径模型相比,Action-Net的准确性有了显著提升。多路径激发不仅可以用于动作识别,还可以应用于其他计算机视觉任务,如目标检测和图像分割。 综上所述,Action-Net是一种基于多路径激发的动作识别模型,通过引入多个并行路径学习不同的特征表示,提高了动作识别的准确性和性能。它具有较强的表达能力和泛化能力,在计算机视觉任务中有着广泛的应用前景。 ### 回答3: "action-net: multipath excitation for action recognition"是一种用于行为识别的多路径激励模型。 行为识别是计算机视觉中的一项重要任务,它旨在通过分析视频或图像序列来识别和理解人类的动作或行为。为了更好地解决这个问题,研究人员提出了许多方法,其中一个方法就是使用深度神经网络。 "action-net: multipath excitation for action recognition"是一种基于深度神经网络的模型,它通过多路径激励的方式来增强行为识别的性能。多路径激励是指通过引入多个并行的路径,每个路径都具有不同的特征提取能力,以捕捉不同方面的行为特征。 在"action-net"模型中,每个路径都是一个独立的卷积神经网络,这些网络在不同尺度和层次上进行特征提取。每个网络都通过激励机制来增强其对特定行为特征的敏感性。这种激励机制可以使网络在学习时集中注意力于关键的特征,提高行为识别的准确性。 通过多个路径的组合,"action-net"模型能够充分利用不同尺度和层次的特征信息,增强行为识别的鲁棒性和泛化能力。此外,多路径激励还能够有效地缓解过拟合问题,提高模型的泛化能力。 总之,"action-net: multipath excitation for action recognition"是一种基于深度神经网络的行为识别模型,通过多路径激励的方式有效地提高了行为识别的性能。它能够捕捉不同尺度和层次的行为特征,提高模型的鲁棒性和泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值