(1)核心思想
将输入的图像分为S*S的格子,对于每个格子为中心给出两个先验框,对于置信度高的格子(即位于物体中心的格子)通过回归任务将两个先验框调整至合适的大小,然后选择IOU指标较大的框作为预测结果
(2)网络架构
- 网络输入:448×448×3的彩色图片
- 隐藏层:由若干卷积层和池化层组成,用于提取图片的抽象特征
- 全连接层:由两个全连接层组成,用来预测目标的位置和类别概率值
- 网络输出:得到7×7×30的预测结果
注:关于 7×7×30的预测结果,是指将图像分为7*7的网格,同时30中,1~5代表第一个先验框的(x,y,w,h)以及置信度c,6~10代表第二个先验框,11~30代表对应20个类别的预测概率
总的来说,将网格数量定义为S*S,定义B个先验框,预测C个类别,那么输出结果即为S×S×(5×B+C)的矩阵向量
(3)损失计算
损失函数主要分为三部分:坐标预测损失、置信度预测损失、类别预测损失
- 在坐标预测损失中,对先验框的(x,y,w,h)和真实的进行方差计算,这里需要注意对于w,h计算是取平方根,是由于对于大物体和小物体而言,w,h的绝对偏差对于他们造成的影响不同,为了缓和统一采用平方根计算
- 在置信度预测损失中,分为存在物体和不存在物体两部分,训练时就会把不存在物体的置信度分数推到零
- 分类预测损失即为预测结果与真实结果的误差计算
- λ代表每个损失函数的权重系数,根据每个损失函数的重要程度决定
(4)补充
NMS极大值抑制,作用就是将物体预测的多个框中,挑选出IOU指数较大的框作为检测结果
(5)优缺点
1.不能预测重合的物体
2.小物体检测效果差
3.不能进行多标签分类
4.检测快,效率高