YOLOv10全网最新创新点改进系列：YOLOv10融合V-Focal Loss全面提升密集目标检测，针对目前样本不平衡问题的独特创新点，有效涨点！

最新推荐文章于 2024-07-22 08:56:40 发布

AI棒棒牛

最新推荐文章于 2024-07-22 08:56:40 发布

阅读量1.7k

点赞数 15

分类专栏： YOLOv10全网最新创新点改进文章标签： YOLO 目标检测人工智能 YOLO模型创新模型改进计算机视觉 YOLOv10

本文链接：https://blog.csdn.net/weixin_51692073/article/details/140424482

版权

YOLOv10全网最新创新点改进专栏收录该内容

50 篇文章 90 订阅

订阅专栏

YOLOv10全网最新创新点改进系列：YOLOv10融合V-Focal Loss全面提升密集目标检测，针对目前样本不平衡问题的独特创新点，有效涨点！

所有改进代码均经过实验测试跑通！截止发稿时YOLOv10已改进40+！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站up主：Ai学术叫叫兽er！

购买相关资料后畅享一对一答疑！

# YOLOv10全网最新创新点改进系列：YOLOv10融合V-Focal Loss全面提升密集目标检测，针对目前样本不平衡问题的独特创新点，有效涨点！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

论文地址：戳这里！！！

一、 VariFocalNet | IoU-aware同V-Focal Loss全面提升密集目标检测 -简介

准确地对大量候选检测器进行排名是高性能密集目标检测器的关键。尽管先前的工作使用分类评分或它与基于IoU的定位评分的组合作为排名基础，但它们都不能得到可靠地排名结果，这会损害检测性能。

在本文中，作者提出学习可同时表示对象存在置信度和定位精度的IoU感知分类评分（IACS），以在密集对象检测器中产生更准确的检测等级。特别地本文还设计了一个新的损失函数，称为Varifocal损失，用于训练密集的物体检测器来预测IACS，并设计了一种新的高效星形边界框特征表示，用于估算IACS和改进粗略边界框。结合这两个新组件和边界框优化分支，作者在FCOS架构上构建了一个新的密集目标检测器，简称为VarifocalNet或VFNet。

在MS COCO基准上进行的大量实验表明，VFNet超过了Baseline约2.0%AP，并且Res2Net-101-DCN最佳模型在COCO测试上达到了55.1%AP。

AI学术叫叫兽er在这！家人们，给我遥遥领先！！！
AI学术叫叫兽er在这！家人们，给我遥遥领先！！！
AI学术叫叫兽er在这！家人们，给我遥遥领先！！！

二、动机

在这一部分中，我们调查了流行的无锚密集对象检测器FCOS[9]的性能上限，找出了它的主要性能障碍，并说明了产生IOU感知分类分数作为排名标准的重要性。FCOS建立在FPN[25]上，其探测头有三个分支。一种是预测特征地图上每个点的分类分数，一种是回归从该点到包围盒四边的距离，另一种是预测中心度分数，该中心度分数乘以分类分数来对NMS中的包围盒排序。图2显示了FCOS头的输出示例。在本文中，我们实际研究了FCOS(FCOS+ATSS)的ATSS版本，其中在训练过程中使用自适应训练样本选择(ATSS)机制来定义特征金字塔上的前景点和背景点。我们建议读者参考[12]以了解更多细节。为了考察FCOS+ATS的性能上界(在COCO Train 2017[16]上训练)，我们交替地将预测的分类分数、距离偏移量和中心度分数替换为NMS之前的前景点的对应地面真实值，并根据AP[16]在COCO val2017上评估检测性能。对于分类得分向量，我们实现了两个选项，即用值1.0替换其在地真标签位置的元素，或者将预测边界框与地真框之间的IOU(称为GT IOU)替换。除了它的真实价值外，我们还考虑用GT借条取代中心度分数。结果如表1所示。我们可以看到，原始的FCOS+ATSS达到了39.2AP。当使用地面真相中心度分数(GT CTR)进行推理时，出乎意料的是，仅增加了约2.0AP。同样，用GT IOU(GT CTR IOU)替换预测的中心度分数仅达到43.5 AP。这表明，使用预测中心度分数或IOU分数与分类分数的乘积进行排序检测肯定无法带来显著的性能提升。相比之下，在没有中心性分数的情况下，带有地面真相包围盒的FCOS+ATS(GT BBox)在推理中获得了56.1AP(无中心比)。但如果在地面真实标签位置(GT CLS)将分类分数设置为1.0，则是否使用中心度分数变得重要(43.1AP对58.1 AP)。因为中心度分数在一定程度上可以区分准确和不准确的盒子。最令人惊讶的结果是用GT借条(GT CLS IOU)取代了地道类的分类分数。在没有中心度评分的情况下，这个案例达到了令人印象深刻的74.7AP，明显高于其他案例。这实际上表明，对于大多数对象，在大的候选池中已经存在精确定位的边界框。要获得良好的检测性能，关键是从池中准确地选择那些高质量的检测，这些结果表明，用GT IOU取代地面真实类的分类分数是最有前景的选择措施。我们将这种分数向量的元素称为欠条感知分类分数(IACS)。

二、方法

基于上述发现，我们建议学习IOU感知分类分数(IACS)来对检测进行排序。为此，我们在去掉中心度分支的FCOS+ATS的基础上，构建了一种新的稠密对象检测器，称为VariafalNet或VFNet。与FCOS+ATSS相比，它有三个新的组成部分：变煤损失、星形包围盒特征表示和包围盒细化

3.1 IACS-IOU感知分类分数

我们将IACS定义为分类分数向量的标量元素，其中地真类标签位置处的值为预测边界框与其地真之间的IOU，其他位置处的值为0。

3.2 .Varifocal Loss

我们设计了一种新的变焦损失来训练致密物体探测器来预测IACS。由于它的灵感来自于焦损[8]，我们首先简要回顾一下焦损。焦损是为了解决密集目标检测器训练过程中前景和背景类之间的极端不平衡问题而设计的。它被定义为：fl(p，y)=−α(1−p)γ−§如果y=1−α(1γ)p−log(1∈p)否则，(1)其中y∈{±1}指定基本事实类，p∈[0，1]是前景类的预测概率。如公式1所示，调制因子(前景类的(1−p)γ和背景类的pγ)可以减少简单示例的损失贡献，并相对增加误分类示例的重要性。因此，焦点损失防止了大量容易的负片在训练期间淹没探测器，并使探测器聚焦在稀疏的一组硬例子上。在训练密集目标检测器回归连续IACS时，我们借鉴了焦点损失的样本权重思想来解决类不平衡问题。然而，与同等处理正面和负面的焦散不同，我们不对称地对待它们。我们的变焦损失也是基于二元交叉熵损失并且被定义为：vfl(p，q)=−q(qlog§+(1−q)−(1−αp))q&gt；0γp−(1 IAC P)q=0，(2)其中p是预测的IAC，q是目标分数。对于前景点，其地面真实类的Q被设置为所生成的边界框与其地面真实之间的IOU(GT IOU)，否则设置为0，而对于背景点，所有类的目标Q为0。见图1。如公式2所示，变焦损失仅通过将负例(q=0)的损失按系数pγ来减少它们的损失贡献，而不会以相同的方式降低正例(q&gt；0)的权重。这是因为与消极的例子相比，积极的例子是极其罕见的，我们应该保留它们宝贵的学习信号。另一方面，受PISA[33]和[34]的启发，我们用训练目标Q对正例进行加权，如果正例具有较高的GT IOU，则其对损失的贡献将相对较大。这将重点放在那些高质量的积极例子上，这些例子对于获得更高的AP比那些低质量的例子更重要。为了平衡正例和反例之间的损失，我们在负损失项中添加了一个可调整的比例因子α。

3.3.星形包围盒特征表示我们设计了一种用于IACS预测的星形包围盒特征表示。

它使用九个固定采样点的特征(图1中的黄色圆圈)来表示具有可变形卷积的边界框[13，14]。这种新的表示可以捕捉边界框的几何形状及其附近的上下文信息，这对于编码预测的边界框与地面真实的边界框之间的未对准是必不可少的。具体地说，给定图像平面上的采样位置(x，y)(或特征地图上的投影点)，我们首先用3x3卷积从它回归初始边界框。在FCOS之后，该边界框由4D向量(L‘，t’，r‘，b’)编码，该4D向量表示从位置(x，y)到边界框的左侧、顶部、右侧和底部的距离。利用这个距离向量，我们试探性地在(x，y)，(xl‘，y)，(x，y-t’)，(x+r‘，y)，(x，y+b’)，(x-L‘，y-t’)，(x+L‘，y-t’)，(x-L‘，y+b’)和(x+r‘，y+b’)处选择9个采样点，然后将它们映射到特征地图上。它们相对于投影点(x，y)的相对偏移量用作对可变形卷积[13，14]的偏移量，然后通过可变形卷积将这九个投影点处的特征卷积以表示边界框。由于这些点是人工选择的，没有额外的预测负担，所以我们的新表示法具有计算效率

4.4.Bounding Box Refinement

通过包围盒细化进一步提高了目标定位的精度。包围盒细化是目标检测中的一种常用技术[17，35]，然而，由于缺乏有效和可区分的目标描述符，它在密集目标检测器中的应用并不广泛。有了我们的新的星形表示，我们现在可以在不降低效率的情况下将其应用于密集对象探测器。我们将边界框求精建模为剩余学习问题。对于初始回归的包围盒(L‘，t’，r‘，b’)，我们首先提取星形表示进行编码。在此基础上，学习四个距离尺度因子(∆L，∆t，∆r，∆b)来缩放初始距离向量，使(L，t，r，b)=(∆L×L‘，∆t×t’，∆r×r‘，∆b×b’)表示的精化包围盒更接近地面真实。

4.5. VarifocalNet

在这里插入图片描述
将上述三个组件附加到FCOS网络体系结构中，并去掉原来的中心度分支，得到了VariafalNet。图3显示了VFNet的网络架构。VFNet的主干和FPN网络部分与FCOS相同。不同之处在于头部结构。VFNet报头由两个子网组成。本地化子网执行边界框回归和随后的细化。它接受来自FPN每一层的特征地图作为输入，并首先应用具有RELU激活的三个3x3转换层。这将生成具有256个通道的要素地图。本地化子网的一个分支再次卷积特征地图，然后输出表示初始边界框的每个空间位置的4D距离向量(L‘，t’，r‘，b’)。给定初始盒和特征地图，另一个分支将星形可变形卷积应用于9个特征采样点，并产生距离缩放因子(∆L，∆t，∆r，∆b)，该因子与初始距离向量相乘以生成细化包围盒(L，t，r，b)。另一个子网旨在预测IACS。它具有与定位子网(精化分支)相似的结构，不同之处在于它输出每个空间位置的C(类号)元素的向量，其中每个元素共同表示对象存在置信度和定位精度。

3.6 损失函数及其推论

损失函数和推理损失函数。我们VFnet的训练由损失函数来监督：Loss=1 NPOSic VFL(PC，I，QC，I)+λ0 NPOSi QC∗，iLbbox(bboxi，bbox∗i)+λ1 NPOSi QC∗，iLbbox(bboxi，bbox∗i)(3)其中PC，i和QC，i分别表示在FPN的各级特征地图上的位置i处的c类的预测IAC和目标IAC。Bbbox是GIOU损失[36]，bboxI、bboxi和bbox∗I分别代表初始、细化和基本事实边界框。我们用训练目标QC IOU i来加权Lbbox，i是前景点的GT IOU，否则在FCOS之后为0。λ0和λ1是Lbbox的平衡权重，经验上分别设置为1.5和2.0。NPOS是前台点数，用于归一化总损失。如第3节所述，在训练期间，我们使用ATSS[12]来定义前景点和背景点。推论。VFNet的推论很简单。它包括简单地通过网络转发输入图像和用于删除冗余检测的NMS后处理步骤。

四实验结果

4.1 Varifocal损失对比实验

在这里插入图片描述
表显示了使用不同损失训练模型的结果。可以看到Varifocal损失使RetinaNet, FoveaBox和ATSS持续改善0.9 AP。对于RepPoints增加了1.4 AP。这表明Varifocal损失可以很容易地给现有的密集物体探测器带来相当大的性能提升。
与GFL相比Varifocal损失在所有情况下表现都比它好，证明了Varifocal损失的优越性。
此外，作者用FL和GFL训练了VFNet以便进一步比较。表1的最后一部分显示了结果，可以观察到Varifocal损失相对于FL和GFL依然具有优势。同时也证明了VFNet的有效性。

4.2 SOTA模型对比

在这里插入图片描述
表给出了SOTA检测器实验结果对比。与Backbone ATSS相比VFNet在不同Backbone网下实现了大约2.0 AP的提升，例如使用ResNet-101 Backbone时46.0AP和43.6AP，这验证了方法的有效性。

与类似的工作的GFL(其MSTrain标度范围为1333x[480:800])相比，VFNet始终比它好得多。同时用Res2Net-101-DCN训练的模型达到了51.3AP，几乎超过了所有最新的检测器。

文章还给出了VFNet在Nvidia V100 GPU上的推断速度。由于在完全相同的设置下很难得到所有列出的检测器的速度，所以只将VFNet与Baseline ATSS进行比较。可以看出VFNet非常高效，例如以19.3 FPS的速度实现44.8AP，与Baseline相比，只增加了很小的计算开销。