https://zhuanlan.zhihu.com/p/376863047
bounding box ,检测框
grid cell , 网格
tensor 总共加起来写成公式就是:SxSx(Bx5+C)。
B(x,y,w,h,confidence) bbox 的中心坐标 x,y,bbox 的宽高 w,h,bbox 的置信度
offset , 偏移量
每个单元格预测的B个(x,y,w,h,confidence)向量和C个条件概率中,每个参数的含义:
(x,y)是bbox的中心相对于单元格的offset
(w,h)是bbox相对于整个图片的比例
confidence由两部分组成,一是格子内是否有目标,二是bbox的准确度。
定义置信度为
P
r
P_r
Pr(Object)×
I
o
U
p
r
e
d
t
r
u
t
h
IoU_{pred}^{truth}
IoUpredtruth
C类的条件概率
P
r
P_r
Pr(
C
l
a
s
s
i
Class_i
Classi|Object)表示该单元格存在物体且属于第 i 类的概率
在测试的时候每个单元格预测最终输出的概率定义为:
P
r
P_r
Pr(
C
l
a
s
s
i
Class_i
Classi|Object) ×
P
r
P_r
Pr(Object) ×
I
o
U
p
r
e
d
t
r
u
t
h
IoU_{pred}^{truth}
IoUpredtruth =
P
r
P_r
Pr(
C
l
a
s
s
i
Class_i
Classi|Object) ×
I
o
U
p
r
e
d
t
r
u
t
h
IoU_{pred}^{truth}
IoUpredtruth
NMS : 即非极大值抑制,就是将一些冗余框去掉
IOU 即Intersection over Union,也就是两个box区域的交集比上并集,用于确定两个框的位置像素距离。
7×7×30
1个cell对应2×5+20个通道:
2×5:每个cell预测2个bbox,每个bbox含5个参数(x,y,w,h,confidence);
20:该cell属于20个类别的概率