YOLOV1:
网络结构可以看作一个黑箱子
输入图片大小为4484483,3是图片三通道,RGB三个通道,
输出图片为7730,7*7指的是图片大小,30可以写成((1+4)*2+20),1指的是置信度,4指的是bounding box 的四个位置参数x,y,h,w(坐标和宽高),2指的是每一个grid cell会生成两个bounding box,20指的是yolov1所用的数据集总共有20个预测的类别。
解释:
grid cell 指的是每一个输入的图片,会被划分为7*7的网格,每一个网格就叫grid cell
bounding box指的是框,每一个grid cell在yolov1中会产生两个bounding box
在yolov1中预测后处理bounding box的方法采用的NMS非极大值抑制法:
经过“黑箱子”后,图片是7730的一个tensor,每一个grid cell负责预测一个物体,所以yolov1最多预测77个物体,也是v1的缺点,
取出一个1130的张量,用20中的每一个类别的概率去分别与每个bounding box 的置信度参数相乘,最后会得到(27*7,20)的一个张量。
非极大值抑制,不是极大值就会被抑制
单独看一个类别,会得到一个98个概率。然后第一个概率和后面依次进行比较,非极大值抑制需要一个参数M,只有iou大于参数M,也就就是实际框和预测框的交并比大于参数M(也就意味着两个框预测的是同一个物体的概率比较,调节参数M,M设置的大,准确率高),两个概率里面小的概率会被置为0,然后依次与后面进行比较。20类一共进行20次NMS操作。
yolov1缺点:
只能检测出49个物体,导致了小目标和密集目标检测效果差
map低
定位能力差
全部物体检出能力差