这里写目录标题
1 YOLO
- GoogleNet + 4个卷积+2个全连接层
- 网络输出大小:7×7x 30
1.1 流程理解
单元格(grid cell)
- 7*7=49个像素值,理解成49个单元格
- 每个单元格负责预测一个物体类别,并且直接预测物体的概率值
- 每个单元格:两个(默认)bbox位置,两个置信度(confidence)
(1)一个bbox:xmin,ymin,xmax,ymax,confidence
(2)两个bbox: 4+1+4+1=10个值
(3)30: 10个,20个( 20代表20类的预测概率结果)
1.2 网格输出筛选
- 一个网格会预测两个Bbox,在训练时我们只有一个Bbox专门负责预测概率(一个object一个Bbox)
- 20个类别概率代表这个网格当中的一个bbox。
- 一个confidence score
(1)如果grid cell里面没有object,confidence就是0
(2)如果有,则confidence score等于预测的box和groundtruth的IOU乘积。两个bbox的4个值都与GT进行loU计算,得到两个loU值 - YOLO框,概率值都直接由网络输出7×7x30(认为给30个值赋了具体的定义)
1.3 训练
- 预测框对应的目标值标记
(1)confidence:格子内是否有目标
(2)20类概率:标记每个单元格的目标类别 - 三部分损失 bbox损失+confidence损失+classfication损失
YOLO优点:速度快
缺点
(1)准确率会打折扣
(2)YOLO对相互靠的很近的物体(挨在一起且中点都落在同一个格子上的情况,还有很小的群体检测效果不好,这是因为一个网格中只预测了两个框