multiBox论文:
Scalable Object Detection using Deep Neural Networks
网络目的:
生成多个大小不一、不确定类别但包含目标的bounding boxes。可以理解为在一副图像基础上生成多个大小不一的Region proposals。
作者利用DNN,输出一定数量的bounding boxes,以及每个box包含目标的置信度。
网络创新点:
网络创新点主要有三点:
1、将目标检测作为一个回归问题,预测多个bounding boxes的坐标,并预测出每个box的置信度(用于判断box包含目标可能性的大小);
2、利用分配问题的思想构建损失函数,通过反向传递优化参数;
3、使用了一种无类别的方式去训练目标box预测器。
网络预测信息:
网络最终预测的信息为bounding boxes和confidence(置信度):
bounding boxes:以左上、右下两个坐标点作为每个box的4个节点值,且利用图像的维度将这4个值进行归一化处理,通过网络最后一个隐藏层去预测。
confidence(置信度):用于判断是否包含目标的置信度分数单独作为一个节点值,利用网络最后一个隐藏层去预测然后通过sigmoid函数计算获得。
网络训练过程:
损失函数:
其中将坐标的训练作为一个分配问题,其数学原理如下
对应的置信度计算方法
优化:
最后利用反向传递优化网络参数。
预测:
利用训练好的网络预测K个bounding boxes,如果有需要可以利用置信度和非极大值抑制筛选出少量高置信度的boxes。
本论文提出方法其实是属于两阶段目标检测中的Region proposals阶段,生成较好的Region proposals则便于后续目标检测网络能够获取较好的特征,能够帮助网络实现更好的目标分类以及目标定位等。