YOLO-V1
论文:"You Only Look Once:Unified, Real-Time Object Detection"
论文地址:https://arxiv.org/abs/1506.02640
1. YOLO的核心思想
利用整张图作为网络的输入,直接在输出层回归 bounding box 的位置和 bounding box 的类别。
2. YOLO-V1算法原理
YOLO-V1输入图像默认尺寸为 。利用卷积神经网络进行特征提取,输出图像的尺寸固定为,然后经过卷积层和全连接层,输出特征图大小为,这里30是和检测的类别数量有关系。
实际操作:YOLO-V1将输入图像划分为的区域,见上图左侧所示,每一个区域对应于最后特征图上的一个点,该点的通道数为30(和检测类别数量有关)。YOLO-V1在每一个区域内预测两个 bounding box,见上图左侧的预测框A和预测框B。这样整张图一共预测个框。如果一个物体的中心点落在了某个区域内,则该区域就负责检测该物体。上图的真实物体框在蓝色区域块内,该区域就负责检测该物体。具体为将该区域预测的两个 bounding box 和真实物体框进行匹配,IoU更大的 bounding box 负