目标检测入门之最新单阶段算法YOLOv10 小白带读

xiao_tianhan

于 2024-07-22 16:05:49 发布

阅读量531

点赞数 20

文章标签： YOLO 深度学习人工智能

本文链接：https://blog.csdn.net/xiao_tianhan/article/details/140552569

版权

先放链接x论文：2405.14458 (arxiv.org)

代码：GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection

简介：

目标检测是机器视觉任务的基础任务，现已应用到了我们生活的各个方面，如：自动驾驶、医学检测和人脸识别等，而机器视觉是将我们现实看到物理世界转化为机器理解的虚拟世界，机器视觉也是深度学习最重要的领域之一，虽然目前NLP的大模型非常火热，但是机器视觉的潜力非常巨大，不管是通用的视觉大模型还是专用的视觉感知网络都具有相当大的前景。

本文以yolov10为例来介绍机器视觉领域的一些基本知识和概念，旨在让小白对目标检测亦或者深度学习有基本的认识，并不会太过深入分析YoloV10的先进之处。由于个人能力有限，难免有所错误，取其精华即可。

直接进入正题：

题目：Yolov10:实时的端到端目标检测

Yolov10: YOLO（You Only Look Once）系列的最新的版本，Yolov1 2 3的作者因为担心yolo算法被应用于军事故第三代之后不在更新，其余版本皆为其他人延续yolo的续作。

目标检测：通过对加载图像进行处理，获得图像中物体的分类和位置。一般有二阶段和单阶段网络之分，但是目前单阶段由于实时性好占绝了绝对优势。而单阶段又以yolo系列和SSD系列最为流行。

端到端：整个目标检测过程从输入图像到输出检测结果（包括目标的类别和边界框）都是由一个统一的神经网络架构完成的，这是和之前的Yolo最典型的特征MNS以及锚框机制不一样的地方，也是Yolov10能抓到审稿人眼球的地方。

0 摘要

在过去的几年里，YOLO已经成为在实时目标检测领域的主要范例，由于其有效的计算成本和检测性能之间的平衡。研究人员对YOLO的架构设计、优化目标、数据扩充策略等进行了探索，取得了显著进展。然而，依赖于非最大抑制（NMS）进行后处理阻碍了端到端部署的YOLO和不利影响的推理延迟。此外，YOLO中各部件的设计缺乏全面、彻底的检验，导致计算冗余明显，限制了模型的性能。它呈现出次优的效率，沿着具有相当大的性能改进潜力。在本研究中，我们的目的是从后处理和模型架构两个方面进一步提升YOLO的效能边界。为此，本文首先提出了一种无NMS训练YOLO的一致性对偶指派方法，该方法在保证训练性能的同时，降低了推理延迟。此外，本文还介绍了基于效率-精度驱动的YOLO整体模型设计策略。我们从效率和精度两个角度对YOLO的各个组件进行了全面优化，大大降低了计算开销，增强了性能。我们努力的成果是推出了新一代的YOLO系列，用于实时端到端目标检测，称为YOLOv 10。大量的实验表明，YOLOv 10在不同的模型尺度上都能达到最高的性能和效率。例如，在COCO平台上，我们的YOLOv 10-S比RT-DETR-R18快1.8倍，同时参数和浮点数减少了2.8倍。与YOLOv 9-C相比，YOLOv 10-B在相同性能下的延迟减少了46%，参数减少了25%。代码：https://github.com/THU-MIG/yolov10。

一句话描述Yolov10的工作：改进了网络具体的模块，去除了用于保留最准确的检测框的NMS（非极大值抑制）。

目标检测任务：从一幅图中获取图中物体的具体类别以及所在位置，所在位置一般通过有左上角坐标和右下角坐标构成的矩形检测框来描述。所以我们将一副图像输入模型，需要模型给出类别和坐标的值。如图所示。

NMS：非极大值抑制（Non-Maximum Suppression，NMS）是目标检测算法中的一个关键后处理步骤，用于减少检测结果中的冗余框，保留最有代表性的检测框。其主要目的是在一个图像中识别出多个相同对象时，只保留最准确的检测结果，而移除其他重叠较大的检测框。如图所示，当检测框扫描整幅图时，会得到不同置信度的多个框，NMS即实现从多个框中保留置信度最高的框。

1 引言

实时目标检测一直是计算机视觉领域的一个研究热点，其目的是在低延迟的情况下准确地预测图像中目标的类别和位置。它被广泛应用于各种实际应用中，包括自动驾驶、机器人导航和目标跟踪等。近年来，研究人员致力于设计基于CNN的目标检测器，以实现实时检测。其中，YOLO因其在性能和效率之间的巧妙平衡而越来越受欢迎。YOLO的检测流水线包括两部分：模型前向处理和NMS后处理。然而，这两种方法都存在不足，导致精度-延迟边界不是最佳的。

CNN：卷积神经网络，先解释神经元和神经网络

人工神经网络（英语：Artificial Neural Network，ANN），简称 神经网络（Neural Network，NN）或 类神经网络，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型，用于对函数进行估计或近似。

人脑可以看做是一个生物神经网络，由众多的神经元连接而成。当神经元“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经元发送化学物质。

在生物神经网络中，每个神经元与其他神经元相连。各个神经元传递复杂的电信号，树突接收到输入信号，然后对信号进行处理，通过轴突输出信号。生物神经元如下图：

受生物神经元的启发，人工神经元接收来自其他神经元或外部源的输入，每个输入都有一个相关的权值（w），它是根据该输入对当前神经元的重要性来确定的，对该输入加权并与其他输入求和后，经过一个激活函数 f，计算得到该神经元的输出。

一句话说明白神经网络在做什么：本质是多个输入通过加权相乘然后得出多个输出，也就是说是一种输入输出的映射。

卷积神经网络 ：卷积神经网络专门被用来处理图像数据，因为图像是2D的，将输入一次性输入神经网络是低效的，所以通过卷积来实现窗口的扫描。通过构建不同窗口大小的权重来对图像的一个窗口进行权重计算。如下图所示：

一句话说明白：卷积神经网络是对图像窗口的高级映射，通过不同大小的卷积核可以实现对图像特征不同尺度的提取。

xiao_tianhan

关注

20
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
目标检测入门之最新单阶段算法YOLOv10 小白带读

目标检测是机器视觉任务的基础任务，现已应用到了我们生活的各个方面，如：自动驾驶、医学检测和人脸识别等，而机器视觉是将我们现实看到物理世界转化为机器理解的虚拟世界，机器视觉也是深度学习最重要的领域之一，虽然目前NLP的大模型非常火热，但是机器视觉的潜力非常巨大，不管是通用的视觉大模型还是专用的视觉感知网络都具有相当大的前景。受生物神经元的启发，人工神经元接收来自其他神经元或外部源的输入，每个输入都有一个相关的权值（w），它是根据该输入对当前神经元的重要性来确定的，
复制链接

扫一扫