yolo原理笔记(最原始的算法推导) v1

两只蜡笔的小新

已于 2024-02-01 10:18:18 修改

阅读量1.1k

点赞数 1

分类专栏：算法推导文章标签：算法目标检测深度学习

于 2021-05-24 17:16:39 首次发布

本文链接：https://blog.csdn.net/weixin_44503976/article/details/108960201

版权

本文深入浅出地介绍了YOLO（You Only Look Once）目标检测算法，包括YOLO的性能优势，通用目标检测器的架构，以及YOLO算法的基本原理。文章详细解释了目标检测中的关键概念，如IoU、Precision和Recall，以及PR曲线。通过阅读，读者可以了解到YOLO算法如何处理尺度问题，以及YOLO v4中采用的技巧，如CutMix和Mosaic数据增强，以提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：最近新入了目标检测的坑，查阅了一些相关的资料，整理一下笔记，和大家分享一下。这篇文章的内容非常基础，有很多深度学习的相关概念，都随手标注解释，所以篇幅可能会很长，可能读起来分不清主线，先这样写着，后面慢慢整理。

主要分为以下两个内容：

从整体的角度分析yolo
从零开始设计检测器

yolo：you only look once

一、yolo的性能

下图是一些经典的(Object Dectection model)目标检测模型EfficientDet(D0-D4), ASFF, ATSS, YOLO, CenterMark在MS COCO数据集上的表现，给出的几个模型都是目前性能比较好的，可以发现yolov4 在视频中的目标检测性能要远大于其他的模型，特别是针对于yolov3有接近两倍的速度提升，这使得有充分的理由去学习yolo的算法原理。

这里图片的纵横坐标分析：

FPS：视频的帧率，每秒可以处理视频流中的图片的个数。

AP: (Average Precision),AP就是平均精准度，是主流的目标检测模型的评价指标。简单来说就是对PR曲线上的Precision值求均值。对于pr曲线来说，我们使用积分来进行计算:

如果想理解这个公式，需要知道IoU，Precision & Recall，PR曲线等概念

1. IoU（Intersection over union）：交并比IoU衡量的是两个区域的重叠程度，是两个区域重叠部分面积占二者总面积（的比例。如下图，两个矩形框的IoU是交叉面积（中间图片红色部分）与合并面积（右图红色部分）面积之比。

通常在目标检测任务中，如果模型输出的矩形框与人工标注的矩形框的IoU值大于某个阈值时（通常为0.5）即认为模型输出了正确的结果。

2. （Precision & Recall）

Precision 和 Recall最早是信息检索中的概念，用来评价一个信息检索系统的优劣。Precision 就是检索出来的条目中（比如：文档、网页等）有多大比例是需要的，Recall就是所有需要的网页的条目有多大比例被检索出来了。用到目标检测领域，假设有一组图片，里面有若干待检测的目标，Precision就代表模型检测出来的目标有多打比例是真正的目标物体，Recall就代表所有真实的目标有多大比例被的模型检测出来了。换个更通俗的例子，10个花生和15个黄豆和25个玉米撒在一起，小明的妈妈让小明把他们都捡起来，说先让把玉米挑出来，小明嫌麻烦随便抓了一把，里面有5个花生、6个黄豆、7个玉米和8个小石子。

那么Precision = (5+6+7)/(5+6+7+8) Recall = 7/(5+6+7+8)

在目标检测中通常是这样使用的，如下图所示：(通常将IOU大于0.5的视为正确的，将IOU小于0.5的视为错误)