一句话描述:SSD在多尺度下面计算特征,然后评估在该尺度下的区域存在的概率以及相关offset,是一种遍历所有区域的方式。
SSD获得的是图像中的矩形区域以及该区域所对应的类型以及类型得分。
训练整体流程:
1.图像经过卷积网络,得到图像的base特征A,
2.在对这个特征进行多层级的提取feature map B,
3.在每个feature map中各个位置location,每个location对应多个default box,
4.计算每个default box的loc offset 以及 class score。
5.根据default box以及loc offset 计算区域位置P,再根据class score,计算每个default box的损失函数,累加得到最终的损失函数。(文章中指出 由于negative 的矩形区域明显多于positive的矩形区域,所以根据计算的confidence 排序获得前N个矩形区域求损失函数,negative 与positive的比例大致是3:1)
优势:使用图像在各个scale下各个位置的特征进行回归,既保证了速度,也保证了准确度。
可能可以提高的方面:其在各个位置中用到的特征仅仅只是该尺度下的特征,没有结合上层或者下层特征。