SSD目标检测系统

首发于个人博客

系统结构

7241055-ea2d853d99e7e9c7.png
system.png

SSD识别系统也是一种单步物体识别系统,即将提取物体位置和判断物体类别融合在一起进行,其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出,还来自于神经网络的中间结果。该系统分为以下几个部分:

  • 神经网络部分:用作特征提取器,提取图像特征
  • 识别器:根据神经网络提取的特征,生成包含物品位置和类别信息的候选框(使用卷积实现)
  • 后处理:对识别器提取出的候选框进行解码和筛选(NMS),输出最终的候选框

神经网络

7241055-87dc4e3db08d1847.PNG
network.PNG

该系统的网络结构如上图所示基本网络为VGG-16网络,VGG-16网络由一系列3x3卷积顺序连接构成,在conv5_3层卷积之前,共有4个stride=2的最大值池化,因此该层的输出的长和宽比原始输入缩小16倍,在SSD300网络中输入图像的尺寸被归一化到300x300,因此该层的输出长和宽为,channel为512,即基础网络VGG-16的输出尺寸为512x19x19。

在基础网络之后,还有如下的网络结构:

名称输入kernel尺寸stridepadding输出是否输出
conv6512x19x191024x512x3x3111024x19x19N
conv71024x19x191024x1024x1x1101024x19x19Y
conv8_11024x10x10256x1024x1x110256x10x10N
conv8_2256x10x10512x256x3x321512x10x10Y
conv9_1512x10x10128x512x1x110128x10x10N
conv9_2128x10x10256x128x3x321256x5x5Y
conv10_1256x5x5128x256x1x110128x5x5N
conv10_2128x5x5256x128x3x310256x3x3Y
conv11_1256x3x3128x256x1x110128x3x3N
conv11_2128x3x3256x128x3x310256x1x1Y

其中,是否输出一栏标为Y的均将其输出送到识别器,即最终识别器接受不同大小的feature map共(5+1)=6个(5个额外的输出层和1个基础网络输出),分别为10x10,5x5,3x3,1x1和两个19x19,

识别器

识别器使用卷积层构成,其卷积尺寸为,其中box_num为feature map上一个格点所产生的识别框数量,class_num为类别数量(包括背景类),具体如下所示:

7241055-392d750d5ebdd591.PNG
default_box.PNG

图中是一个4x4的feature map,共个格点,每个格点上有3个候选框,即box_num=3,类别信息中共有p个数据,即共有p类物品以供判断(p中含有背景类),class_num=p。另外的4个数据为loc后的位置微调信息。一个的feature map经过识别器处理后,变为的Tensor,共包含个候选框。

后处理

第一步后处理是解析候选框中的数据,每一个候选框由4+class_num个数据构成:4个位置信息x,y,w,h和class_num个类别信息。解析方式与anchor box几乎相同,如下所示:

其中,分别是识别出的物品的中心点的宽度坐标,高度坐标和物品的高度和宽度。分别是输入图像的宽度和高度,为候选框所在格点的坐标,取值范围分别为0~和0~,如上图中有。为候选框所在的feature map的宽度和高度,如上图有。分别是对应default box的默认归一化宽高。对于类别信息,取其中最大的即可:

第二步后处理是使用NMS(非极大值抑制)对候选框进行筛选:当两个候选框的IOU超过一个阈值时,丢弃置信度conf低的候选框。

网络训练

网络训练分为了两个部分:

  • 建立label:一般的物体检测的label为物体的位置信息,为了实现训练需要将label转移到default box上
  • 代价函数:反向传播的起点,标记训练任务

标签建立

default box生成

在每个feature map的格点上,default box的面积是一个定值,长宽比为几种可选的值,如下所示:

其中,为第k个feature map的归一化尺寸参数(实际尺寸与图片尺寸的比),,即k=1时(最大的feature map),尺寸参数为图片尺寸的0.2倍,k=m时(最小的feature map),尺寸参数为图片尺寸的0.9倍。分别为第k个feature map下不同长宽比的default box的默认归一化宽和高。除了以上所述4个default box之外,每个feature map的格点default box还有两个长宽比为1的框,其尺寸系数分别是:

综上所述,每个feature map的格点共对应6个default box

label匹配

对一个default box进行label匹配时,遍历这张输入图片的物体信息label,若该物品和这个default box的IOU超过某个阈值时,认定这个default box用于识别这个物体,按如下建立label:

  • 对于位置信息:根据以上后处理所示的公式进行反处理,则可以获得位置信息的label
  • 对于类别信息:将物品类别对应位置的置信度置1,其他置0

按以上方法遍历所有default box,即生成了对于一张输入数据的label

代价函数

代价函数由两个部分构成,分别对于定位准度和分类精度:

其中x为标记信息,,当第i个default box被标记为属于类别p的第j个物体时,,否则该标记为0。代价函数分为两个部分,第一个部分是分类精度,使用softmax损失函数,如下所示。指该default box的在label中不属于背景(p>0),反之。c为网络输出中置信度有关的向量,为SSD输出的第i个default box中属于类别p的置信度。

第二个部分为定位准确度,使用L1下的smooth函数作为代价函数:

其他训练细节

正反例

保证正例:反例=1:3,由于一般正例远远少于反例,所以保留所有正例,并根据正例三倍的数量选择反例,选择的标准为置信度:即选择高的反例。

图像预处理

输入图片随机选择进行以下处理:

  • 输入原始图像
  • 截取与物品IOU大于0.3,0.5,0.7或0.9的部分
  • 随机截取图片部分

进行完以上随机选择后,随机对处理后的图片做翻转处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值