解决了多物体识别和定位的问题,问题在于不是end to end,而且太慢。
流程:
1.选取一个训练好的CNN分类器作为基础模型
2.使用selective search(就是将图像中的像素按照纹理和颜色做聚类)预选出2000个预选框,然后将预选框中的内容裁剪下来,resize后作为模型的输入
3.抽取模型第5个pooling的输出作为图像特征
4.将图像特征输入SVM二分类器,用于分类
5.对于SVM判断出有东西的预选框使用NMS(non maximum suppression)经行进一步筛选,也即先选出概率最高的那个框,然后寻找与他有重叠的框,计算两者之间的IOU,如果超过阈值,则两个框框的是同一个东西,因此删掉后者。重复直到无法删除。
6.bounding box regression,微调预选框,也即将图像特征输入一个回归器,用于输出原有预选框的偏移值
参考链接:https://www.bilibili.com/video/BV1VN411d7Br?from=search&seid=9589903293114484796