2024年目标检测研究进展

Eric An

已于 2024-07-30 16:47:14 修改

阅读量4.3k

点赞数 3

文章标签：深度学习

于 2024-03-10 09:16:13 首次发布

本文链接：https://blog.csdn.net/yunxinan/article/details/136554641

版权

DetSAM

DetCLIPv3

这篇论文的标题是 “DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection”，由 Lewei Yao 等人撰写。以下是对论文的动机、方法、实验和结论的总结：
在这里插入图片描述

动机 (Motivation)

现有的开放词汇表目标检测器（OVD）通常需要用户提供预定义的类别集，这在实际应用场景中限制了它们的使用。
与现有方法不同，人类认知能够以分层的方式理解不同粒度的对象，这在当前的OVD系统中尚未实现。
为了解决这些限制，作者提出了 DetCLIPv3，这是一种新型的目标检测器，能够扩展开放词汇表目标检测的范围。

方法 (Method)

模型架构：DetCLIPv3 建立在一个强大的开放词汇表检测器上，并通过集成标题头来增强其生成能力，能够为每个检测到的对象生成层次化标签。
高信息密度数据：开发了一个自动注释流程，利用视觉大型语言模型来改进大规模图像-文本对的注释，提供丰富的多粒度对象标签来增强训练。
高效训练策略：采用预训练阶段，使用低分辨率输入，使对象标题生成器能够从大量图像-文本配对数据中高效学习广泛的视觉概念，然后通过高分辨率样本的微调阶段来进一步提高检测性能。

实验 (Experiments)

在 LVIS minival 基准测试中，DetCLIPv3 的 Swin-T 骨干模型实现了显著的零样本固定 AP，超越了 GLIPv2、GroundingDINO 和 DetCLIPv2。
在 VG 数据集上的密集字幕任务中，DetCLIPv3 达到了最先进的 19.7 AP，展示了其强大的生成能力。
通过大量实验，进一步证明了 DetCLIPv3 在开放词汇表检测性能、领域泛化和下游迁移性方面的优越性。

结论 (Conclusion)

DetCLIPv3 是一种创新的开放词汇表检测器，能够基于类别名称定位对象，同时生成层次化和多粒度的对象标签，扩展了 OVD 模型的应用场景。作者希望他们的方法能为未来视觉认知系统的开发提供洞见。
论文还讨论了 DetCLIPv3 的局限性，例如生成能力的评估尚不完整，以及当前的检测过程还不支持通过指令进行控制。
作者提出了未来的研究方向，包括开发全面的评估指标来评估生成性开放词汇表检测器，并将大型语言模型（LLMs）集成到指令控制的开放词汇表检测中。
论文通过提出 DetCLIPv3，展示了一种新的方法来增强目标检测器的能力和应用范围，特别是在处理开放词汇表和生成层次化标签方面。

YOLOv9

动机
1.1 研究发现模型在前向推理特征表示学习的过程有效信息会丢失即信息瓶颈问题和可逆函数研究
1.2 深度学习方法在设计目标函数和架构时，往往忽略了输入数据在前向传播过程中可能损失大量信息的问题，这被称为信息瓶颈（information bottleneck）
1.3 信息损失可能导致梯度信息不可靠，进而影响模型的预测准确性和训练效果。
1.4 现有的方法，如可逆架构、掩码建模和深度监督，虽然能够缓解信息瓶颈问题，但它们在训练和推理过程中存在一些缺点，如增加推理成本、错误关联数据、信息丢失等。
方法
2.1程序化梯度信息 (Programmable Gradient Information, PGI)：提出了PGI概念，通过辅助可逆分支生成可靠的梯度信息，以更新网络权重并保持目标任务所需的关键特征。
2.2通用高效层聚合网络 (Generalized Efficient Layer Aggregation Network, GELAN)：设计了一种新的轻量级网络架构，基于梯度路径规划，使用传统的卷积操作，以提高参数利用效率。
2.3GELAN架构证实了PGI在轻量级模型上取得了优越的结果。
实验
3.1在MS COCO数据集上验证了所提出的GELAN和PGI，实验结果表明GELAN仅使用传统的卷积操作就实现了比基于深度可分离卷积的设计更好的参数利用效率。
3.2PGI适用于从轻量级到大型的各种模型，能够获取完整信息，使得从头开始训练的模型能够达到比使用大型数据集预训练的现有最先进模型更好的结果。
3.3提出的YOLOv9在MS COCO数据集上进行的实验中，性能在各个方面都超过了现有的实时目标检测器。
结论
4.1PGI解决了信息瓶颈问题，并且适用于轻量级和深度神经网络，能够显著提高模型的准确性。
4.2GELAN是一种高效且轻量级的神经网络，对于目标检测任务，在不同的计算块和深度设置下都表现出强大且稳定的表现。
4.3结合PGI和GELAN设计的YOLOv9显示出强大的竞争力，其设计使得深度模型在减少参数数量和计算量的同时，仍然提高了在MS COCO数据集上的性能。
4.4论文的贡献包括理论上分析了现有的深度神经网络架构，设计了PGI和辅助可逆分支，并在实验中取得了优异的结果。此外，PGI的设计使得新的轻量级架构能够真正应用于日常生活中，并且GELAN的设计仅使用传统的卷积操作就实现了比基于最先进技术的深度可分离卷积设计更高的参数使用效率

图片来源网络

YOLO相关的研究：https://blog.csdn.net/yunxinan/article/details/103431338

DETRs

这篇论文的标题是 “DETRs Beat YOLOs on Real-time Object Detection”，由 Yian Zhao 和其他合作者撰写。以下是对论文内容的总结，包括动机、方法、实验和结论：

动机 (Motivation)

YOLO系列因其在速度和准确性之间的合理权衡而成为实时目标检测的最流行框架。
非极大值抑制（NMS）作为YOLO检测器的后处理步骤，不仅降低了推理速度，还引入了导致速度和准确性不稳定的超参数。
最近，基于Transformer的端到端检测器（DETRs）提供了一种消除NMS的替代方案，但其高计算成本限制了它们的实用性。

方法 (Method)

提出了Real-Time DEtection TRansformer（RT-DETR），据作者所知，这是首个能够实现实时端到端目标检测的系统。
设计了一个高效的混合编码器，通过对多尺度特征进行解耦的内部尺度交互和跨尺度融合来提高处理速度。
提出了最小化不确定性的查询选择方法，为解码器提供高质量的初始查询，从而提高准确性。
通过调整解码器层数支持灵活的速度调整，无需重新训练即可适应不同场景。

实验 (Experiments)

在COCO数据集上评估了RT-DETR，并与先前的YOLO检测器和DETRs进行了比较。
实验结果表明，RT-DETR在速度和准确性上均优于先前的YOLO检测器，例如在T4 GPU上，RT-DETR-R50 / R101分别达到了53.1% / 54.3% AP和108 / 74 FPS。
进行了消融研究，验证了混合编码器和不确定性最小查询选择方法的有效性。
通过预训练和微调，进一步提高了RT-DETR在COCO val2017上的性能。