
目标检测
文章平均质量分 93
量子-Alex
这个作者很懒,什么都没留下…
展开
-
【目标检测】【YOLO综述】YOLOv1到YOLOv10:最快速、最精准的实时目标检测系统
摘要——本文是对YOLO系列系统的全面综述。与以往文献调查不同,本综述文章从最新技术视角重新审视了YOLO系列的特性。同时,我们还分析了YOLO系列如何持续影响并推动实时计算机视觉相关研究,以及如何引领后续计算机视觉与语言模型的发展。我们深入探讨了过去十年间YOLO系列提出的方法如何影响后续技术演进,并展示了YOLO在各领域的应用场景。希望本文能为后续实时计算机视觉的发展起到良好的指导作用。索引关键词—YOLO,计算机视觉,实时目标检测。原创 2025-04-15 16:21:54 · 1836 阅读 · 0 评论 -
【目标检测综述】20年目标检测技术综述
摘要—目标检测作为计算机视觉领域最基础且最具挑战性的问题之一,近年来受到极大关注。过去二十年间,我们见证了目标检测技术的快速演进及其对整个计算机视觉领域的深远影响。若将当前以深度学习为驱动的目标检测技术视作一场革命,那么回溯至20世纪90年代,我们便能领略早期计算机视觉研究者独具匠心的思维与极具前瞻性的设计。原创 2025-04-15 11:36:30 · 779 阅读 · 0 评论 -
顶刊【遥感舰船目标检测】【TGRS】CM-YOLO:基于上下文调制表征学习的船舶检测方法
摘要—船舶检测在军事和民用领域均具有重要应用价值。现有方法主要关注显著的海上船舶,对易与复杂背景混淆的近岸船舶关注不足。利用位置、形状等上下文信息可提升复杂环境下的船舶检测与分类性能。本文提出一种基于上下文调制表征学习的检测方法CM-YOLO,其采用包含骨干网络、颈部网络和检测头的经典检测器设计框架,输入图像依次通过这三个组件获得检测结果。原创 2025-04-13 06:52:37 · 1311 阅读 · 0 评论 -
顶刊【遥感目标检测】【TGRS】LSKF-YOLO:面向高分辨率卫星遥感影像电力塔检测的大规模选择性核特征融合网络
摘要——随着高分辨率卫星遥感观测技术的快速发展,基于卫星遥感影像的电力塔检测已成为电力智能巡检的关键研究方向。然而,由于复杂背景、目标尺寸小且不均匀等问题,卫星遥感影像中电力塔检测性能仍有待提升。为此,本文首先构建了多场景高分辨率卫星遥感电力塔数据集,进而提出面向高分辨率卫星遥感影像的大选择性核特征融合(LSKF)-YOLO网络。该网络主要由大空间核选择性注意力融合模块和多尺度特征对齐融合(MFAF)结构组成。原创 2025-04-10 16:55:09 · 1152 阅读 · 0 评论 -
顶刊【遥感目标检测】【TGRS】Enhanced Target Detection:Fusion of SPD and CoTC3 Within YOLOv5 Framework
摘要—高分辨率遥感图像识别具有重要意义,可广泛应用于城市规划、土地利用等领域。现有模型在训练过程中过度关注图像的纹理和细粒度特征,忽略了特征图中更广泛的上下文信息,这降低了模型识别目标的能力。为提高检测精度与鲁棒性,我们提出一种改进版YOLOv5框架,专门针对具有小目标和低分辨率特点的遥感图像分析。通过引入空间到深度(SPD)组件,并采用空洞卷积和深度可分离卷积,增强了模型感知目标属性的能力。此外,我们提出上下文Transformer聚焦综合卷积(CoTC3)模块,将其无缝集成至YOLOv5核心架构。原创 2025-04-10 16:19:26 · 1038 阅读 · 0 评论 -
顶刊【TGRS】【遥感目标检测】AMFLW-YOLO:基于注意力机制与多尺度特征融合的轻量化遥感图像检测网络
摘要—遥感图像中目标尺度变化大且多样,存在大量分布密集的小目标及高复杂度的图像背景。基于深度学习的物体检测算法网络参数量与计算量庞大,难以在性能固定且计算资源有限的平台上部署。本文提出一种轻量级遥感目标检测模型AMFLW-YOLO(注意力与多尺度特征融合轻量YOLO)。该模型在骨干网络中采用深度可分离卷积、逆残差结构和线性瓶颈结构替代标准卷积层,以降低参数量;在特征融合网络引入坐标注意力机制(CA),同步捕获跨通道的方向与位置感知信息,提升网络精度;原创 2025-03-30 11:52:26 · 764 阅读 · 0 评论 -
【通道注意力机制】【SENet】Squeeze-and-Excitation Networks
卷积神经网络建立在卷积操作的基础上,通过融合局部感受野内的空间和通道信息来提取有意义的特征。为了增强网络的表示能力,最近的一些方法展示了增强空间编码的好处。在本研究中,我们专注于通道关系,并提出了一种新颖的架构单元,称为“压缩-激励”(SE)块,它通过显式建模通道之间的相互依赖关系,自适应地重新校准通道特征响应。我们证明,通过堆叠这些块,可以构建在具有挑战性的数据集上表现出色的SENet架构。关键的是,我们发现SE块在现有最先进的深度架构中,以最小的额外计算成本,带来了显著的性能提升。原创 2025-03-29 23:06:19 · 982 阅读 · 0 评论 -
顶刊【遥感目标检测】【TGRS】FFCA-YOLO遥感图像小目标检测
摘要——特征表征不足、背景干扰等问题使得遥感图像中的小目标检测任务极具挑战性。尤其在算法需部署于星载设备进行实时处理时,需在有限计算资源下对精度与速度进行深度优化。为此,本文提出一种名为特征增强-融合与上下文感知YOLO(FFCA-YOLO)的高效检测器。原创 2025-03-29 19:38:18 · 1153 阅读 · 0 评论 -
【YOLO】【遥感目标检测】Object Detection in Remote Sensing Images using YOLOv8
摘要—在遥感图像(RSIs)中检测物体对于从城市规划到灾害响应的各种应用至关重要。然而,当前的深度学习模型由于依赖固定的锚框以及图像中缺乏物体上下文线索,往往表现不佳。为此,我们开发了一种基于YOLOv8技术的专门用于分析遥感图像的目标检测系统。该框架旨在准确识别复杂卫星图像中的物体。通过利用DIOR数据集并将传统注释精心转换为YOLO格式,模型经过严格的训练,最终实现了显著的精度提升。与传统方法不同,该框架特别强调场景上下文特征的整合以及前沿数据增强策略的实施。原创 2025-03-27 11:21:17 · 1117 阅读 · 0 评论 -
【注意力机制】【医学图像分割】DuAT用于医学图像分割的双聚合Transformer网络
DuAT:用于医学图像分割的双聚合Transformer网络PRCV 2022。原创 2025-03-27 11:17:22 · 596 阅读 · 0 评论 -
【遥感小目标数据集】【AI-TOD】Tiny Object Detection in Aerial Images
摘要—近年来,地球视觉中的目标检测取得了巨大进展。然而,航空图像中的微小目标检测仍然是一个非常具有挑战性的问题,因为微小目标包含的像素数量较少,并且容易与背景混淆。为了推动航空图像中微小目标检测的研究,我们提出了一个新的数据集,即航空图像中的微小目标检测数据集(AI-TOD)。具体而言,AI-TOD包含28,036张航空图像中的八类共700,621个目标实例。与现有的航空图像目标检测数据集相比,AI-TOD中目标的平均大小约为12.8像素,远小于其他数据集。原创 2025-03-26 16:43:05 · 1786 阅读 · 0 评论 -
【遥感小目标检测】YOLO-FNC
摘要—遥感图像中小目标的检测算法由于复杂的背景和有限的像素,往往具有挑战性。这可能导致检测精度降低和小目标漏检数量增加。因此,本文提出了一种基于YOLOv7的增强网络YOLOFNC。为了提高模型捕捉小目标特征的能力,设计了一种基于C3模块的增强型C3-Faster模块,并将其集成到YOLOv7网络中。该模块有助于提取更多与小目标相关的特征。此外,我们采用归一化Wasserstein距离(NWD)融合GIoU作为新的损失函数,以优化网络权重和小目标回归框架的精度。原创 2025-03-21 08:35:08 · 762 阅读 · 0 评论 -
【反无人机目标检测】DRBD-YOLOv8
摘要:由于对无人飞行器(UAV)相关的安全和隐私问题的日益关注,反无人机检测系统的兴趣不断增加。在边缘计算设备资源有限的情况下,实现高精度的实时检测是反无人机检测面临的一个重大挑战。现有的基于深度学习的反无人机检测模型往往无法在精度、处理速度、模型大小和计算效率之间取得平衡。为了解决这些局限性,本文提出了一种轻量级且高效的反无人机检测模型DRBD-YOLOv8。原创 2025-03-12 13:14:52 · 2180 阅读 · 0 评论 -
【反无人机目标检测数据集】MIDGARD:关于基于机器学习的微型无人机视觉相对定位的训练数据集
摘要——通过利用我们相对微型无人机定位传感器UVDAR,我们生成了一个自动标注的数据集MIDGARD,邀请社区使用该数据集来训练和测试其机器学习系统,以实现微型无人机(MAV)对其他MAV的检测和定位。此外,我们提供我们的系统作为一种快速生成定制标注数据集的机制,专门针对特定应用的需求。最近的文献中,机器学习方法在自动化和机器人领域的应用非常丰富。其中,视觉目标检测与定位是这些方法的一个子集,使用诸如卷积神经网络等手段,如今能够以以前难以想象的精度和可靠性检测和分类目标。原创 2025-03-12 13:06:03 · 1049 阅读 · 0 评论 -
【反无人机目标检测数据集】空对空视觉检测微型无人机:深度学习的实验评估
摘要—本文研究了利用单目摄像头进行空中对微型无人机(UAV)视觉检测的问题。该问题在许多应用中具有重要意义,例如基于视觉的无人机集群、恶意无人机检测以及无人机的“看见并避让”系统。尽管深度学习方法在许多目标检测任务中表现出色,但其在无人机检测中的潜力尚未得到充分探索。作为本文的第一个主要贡献,我们提出了一个名为Det-Fly的新数据集,该数据集包含由另一架飞行无人机获取的超过13,000张目标无人机飞行图像。原创 2025-03-11 19:06:44 · 1748 阅读 · 0 评论 -
【反无人机数据集】【目标检测】基于深度学习和距离分析的无人机检测图像处理技术应用
无人机在我们的日常生活中有许多应用,可以用于农业、军事、商业、灾害救援、研发等多种用途。近年来,小型无人机/无人飞行器的使用显著增加。因此,小型无人机被滥用于非法活动(如恐怖主义和毒品走私)的潜在风险也在上升。因此,需要一种能够在各种环境中使用的准确且可靠的无人机识别技术。本文基于计算机视觉和深度学习的原理,使用了当前最先进的目标检测模型(即YOLO模型)的不同版本来检测小型无人机。为了提高小型无人机的检测精度,本文提出将多种图像处理技术应用于现有检测模型,从而显著提升了性能。原创 2025-03-11 15:06:22 · 1210 阅读 · 0 评论 -
【目标检测】【NeuralPS 2023】Gold-YOLO:通过收集与分发机制实现的高效目标检测器
在过去的几年中,YOLO系列模型已成为实时目标检测领域的领先方法。许多研究通过修改架构、增强数据和设计新的损失函数,将基线提升到了更高的水平。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)已经缓解了这一问题,但之前的模型仍然存在信息融合问题。因此,本研究提出了一种先进的“收集与分发”机制(GD机制),该机制通过卷积和自注意力操作实现。这种新设计的模型名为Gold-YOLO,它增强了多尺度特征融合能力,并在所有模型规模上实现了延迟与准确性的理想平衡。原创 2025-03-07 21:23:16 · 1302 阅读 · 0 评论 -
【目标检测】Efficient Feature Fusion for UAV Object Detection
无人机(UAV)遥感图像中的目标检测面临诸多挑战,如图像质量不稳定、目标尺寸小、背景复杂以及环境遮挡等。特别是小目标在图像中占据的比例较小,导致其准确检测极为困难。现有的多尺度特征融合方法通过聚合不同分辨率的特征,在一定程度上应对了这些挑战。然而,由于特征表示不足和网络信息流不平衡,这些方法往往无法有效平衡小目标的分类和定位性能。本文提出了一种专门为无人机目标检测任务设计的新型特征融合框架,旨在同时提升定位精度和分类性能。原创 2025-03-07 20:57:35 · 838 阅读 · 0 评论 -
【目标检测】【CVPR 2025】DEIM:具有改进匹配机制的DETR以实现快速收敛
我们介绍了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛速度。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。该方法通过引入额外目标并使用标准数据增强技术,增加了每张图像的正样本数量。虽然密集O2O匹配加快了收敛速度,但也引入了大量低质量匹配,可能影响性能。为了解决这一问题,我们提出了可匹配性感知损失(MAL),这是一种新颖的损失函数,能够优化不同质量水平的匹配,从而增强密集O2O的有效性。原创 2025-03-06 21:44:46 · 3225 阅读 · 1 评论 -
【CVPR 2024】【实时目标检测】D-FINE:将DETRS中的回归任务重新定义为细粒度分布优化
我们推出了D-FINE,这是一种强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了卓越的定位精度。D-FINE包含两个关键组件:细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代优化概率分布,提供了细粒度的中间表示,显著提升了定位精度。GO-LSD是一种双向优化策略,通过自蒸馏将定位知识从优化后的分布传递到较浅层,同时简化了较深层的残差预测任务。原创 2025-03-06 08:53:07 · 1146 阅读 · 0 评论 -
【CVPR 2024】【多模态目标检测】SHIP 探究红外与可见光图像融合中的高阶协同交互
红外与可见光图像融合旨在通过整合和区分多源互补信息生成融合图像。尽管具有全局空间交互的交叉注意力机制表现出潜力,但它仅捕捉了二阶空间交互,忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态协同效应的充分利用。为了弥补这一差距,我们提出了一种协同高阶交互范式(SHIP),旨在系统地研究红外与可见光图像在空间细粒度和全局统计两个基本维度上的协作:1)空间维度:通过逐元素乘法构建空间细粒度交互,数学上等同于全局交互,然后通过迭代聚合和演化互补信息,促进高阶形式,提升效率和灵活性;原创 2025-03-05 10:35:58 · 1645 阅读 · 0 评论 -
【多模态目标检测】M2FNet:基于可见光与热红外图像的多模态融合目标检测网络
融合可见光(VIS)和热红外(TIR)图像的多模态信息对于在完全适应不同光照条件下的目标检测至关重要。然而,由于缺乏同时标注VIS和TIR配准图像的训练数据,现有模型通常将VIS和TIR图像视为独立信息,并通过单独的网络提取相应特征。为了填补这一空白,本文提出了一种基于Transformer架构的新型多模态融合网络(M2FNet),其中包含两个有效模块:联合模态注意力(UMA)和跨模态注意力(CMA)。UMA模块聚合了来自VIS和TIR图像的多光谱特征,然后通过卷积神经网络(CNN)骨干网络提取多模态特征。原创 2025-03-05 10:25:44 · 2706 阅读 · 0 评论 -
【多模态目标检测】【AAAI 2025】FD2-Net
红外-可见光目标检测(IVOD)旨在利用红外和可见光图像中的互补信息,从而提升检测器在复杂环境中的性能。然而,现有方法往往忽略了互补信息的频率特性,例如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,从而限制了检测性能。为了解决这一问题,我们提出了一种新颖的频率驱动特征分解网络,称为FD2-Net,它能够有效捕捉跨模态视觉空间中互补信息的独特频率表示。原创 2025-03-04 15:15:17 · 2042 阅读 · 5 评论 -
【多模态目标检测】DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection
在低光照环境下进行目标检测是一项具有挑战性的任务,因为物体在RGB图像中通常不清晰可见。由于红外图像提供了补充RGB图像的清晰边缘信息,融合RGB和红外图像有潜力增强低光照环境下的检测能力。然而,现有涉及可见光和红外图像的工作仅关注图像融合,而非目标检测。此外,它们直接融合了两种图像模态,忽略了它们之间的相互干扰。原创 2025-03-04 10:08:14 · 2139 阅读 · 0 评论 -
【目标检测】【PANet】Path Aggregation Network for Instance Segmentation
信息在神经网络中的传播方式至关重要。在本文中,我们提出了路径聚合网络(PANet),旨在增强基于提议的实例分割框架中的信息流动。具体而言,我们通过自底向上的路径增强,在较低层中引入精确的定位信号,从而缩短了较低层与最顶层特征之间的信息路径。我们提出了自适应特征池化,将特征网格与所有特征层级连接起来,使每个层级中的有用信息能够直接传播到后续的提议子网络中。此外,我们还创建了一个互补分支,为每个提议捕捉不同的视角,以进一步提高掩码预测的准确性。原创 2025-02-21 22:35:21 · 1235 阅读 · 0 评论 -
【目标检测】【BiFPN】EfficientDet:Scalable and Efficient Object Detection
模型效率在计算机视觉中变得越来越重要。在本文中,我们系统地研究了用于目标检测的神经网络架构设计选择,并提出了几项关键优化以提高效率。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它可以轻松快速地进行多尺度特征融合;其次,我们提出了一种复合缩放方法,可以同时统一缩放所有骨干网络、特征网络以及框/类别预测网络的分辨率、深度和宽度。基于这些优化和EfficientNet骨干网络,我们开发了一个新的目标检测器系列,称为EfficientDet,它在广泛的资源限制范围内始终比现有技术实现更高的效率。原创 2025-02-21 21:44:03 · 1341 阅读 · 0 评论 -
【目标检测】【YOLOv4】YOLOv4:目标检测的最佳速度与精度
有许多特征被认为可以提高卷积神经网络(CNN)的准确性。需要在大规模数据集上对这些特征的组合进行实际测试,并对结果进行理论上的验证。某些特征仅适用于特定模型和特定问题,或仅适用于小规模数据集;而一些特征,如批量归一化和残差连接,适用于大多数模型、任务和数据集。我们假设这些通用特征包括加权残差连接(WRC)、跨阶段部分连接(CSP)、跨小批量归一化(CmBN)、自对抗训练(SAT)和Mish激活函数。原创 2025-02-20 09:22:24 · 1422 阅读 · 0 评论 -
【目标检测】CSPNET:A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN
神经网络在计算机视觉任务(如目标检测)中实现了最先进的方法,取得了令人瞩目的成果。然而,这种成功在很大程度上依赖于昂贵的计算资源,这使得使用廉价设备的人们难以享受到这一先进技术。在本文中,我们提出了跨阶段部分网络(CSPNet),从网络架构的角度缓解了以往工作对大量推理计算的需求。我们将这一问题归因于网络优化过程中梯度信息的重复。所提出的网络通过整合网络阶段开始和结束时的特征图,尊重了梯度的变异性。原创 2025-02-20 09:09:35 · 1222 阅读 · 0 评论 -
【目标检测】【YOLOv12】YOLOv12:Attention-Centric Real-Time Object Detectors
长期以来,增强YOLO框架的网络架构一直至关重要,但主要集中在基于CNN的改进上,尽管注意力机制在建模能力上已被证明具有优越性。这是因为基于注意力的模型无法与基于CNN的模型在速度上相匹敌。本文提出了一种以注意力为核心的YOLO框架,即YOLOv12,它在保持与之前基于CNN模型相同速度的同时,充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。原创 2025-02-19 22:02:42 · 2908 阅读 · 0 评论 -
【遥感目标检测】【数据集】DOTA:用于航空图像中目标检测的大规模数据集
目标检测是计算机视觉中一个重要而富有挑战性的问题。尽管过去十年见证了自然场景中目标检测的重大进展,但这种成功在航空图像中进展缓慢,这不仅是因为地球表面上目标实例的规模、方向和形状的巨大变化,还因为航空场景中目标的注释良好的数据集的稀缺。为了推进地球视觉(也称为地球观测和遥感)中的目标检测研究,我们引入了一个用于航空图像中目标检测(DOTA)的大规模数据集。为此,我们从不同的传感器和平台收集了2806幅航拍图像。每个图像的大小约为4000 × 4000像素,并且包含呈现各种比例、方向和形状的目标。原创 2025-01-16 12:18:21 · 1578 阅读 · 0 评论 -
【CVPR 2024】【遥感目标检测】Poly Kernel Inception Network for Remote Sensing Detection
遥感图像(RSIs)中的目标检测经常面临几个日益增加的挑战,包括目标尺度的巨大变化和不同范围的背景。现有方法试图通过大核卷积或扩张卷积来扩展主干的空间感受野来解决这些挑战。然而,前者通常会引入相当大的背景噪声,而后者会产生过于稀疏的特征表示。在本文中,我们引入了多核inception网络(PKINet)来应对上述挑战。PKINet采用无膨胀的多尺度卷积核来提取不同尺度的特征并捕获局部上下文。此外,还并行引入了上下文锚注意力(CAA)模块来捕获远程上下文信息。原创 2025-01-04 08:54:34 · 2678 阅读 · 0 评论 -
【反无人机目标检测与跟踪】DUT Anti-UAV数据集介绍
其中包含检测和跟踪子集。检测数据集包括训练集(5200个图像)、验证集(2600个图像)和测试集(2200个图像)。跟踪数据集包括20个序列。DUT反无人机数据集包含检测和跟踪子集。检测数据集被分成训练集、测试集和验证集。跟踪数据集包含20个短期和长期序列。所有帧和图像都经过精确的手动注释。图像和物体的详细信息如表I所示。具体来说,检测数据集总共包含10,000幅图像,其中训练集、测试集和验证集分别具有5200、2200和2600幅图像。原创 2024-12-12 22:09:18 · 2452 阅读 · 0 评论 -
【反无人机目标检测】Vision-based Anti-UAV Detection and Tracking
摘要——无人机在各个领域得到了广泛的应用,其对安全和隐私的侵犯引起了社会的关注。近年来,已经推出了几种用于无人机的检测和跟踪系统,但它们大多基于射频、雷达和其他介质。我们假设计算机视觉领域已经足够成熟,可以检测和跟踪入侵的无人机。因此,我们提出了一个可见光模式数据集,称为大连理工大学反无人机数据集,简称DUT反无人机。它包含一个总共10,000张图像的检测数据集和一个包含20个视频的跟踪数据集,包括短期和长期序列。所有帧和图像都经过精确的手动注释。原创 2024-12-12 17:25:48 · 2433 阅读 · 0 评论 -
【目标检测】【反无人机目标检测】使用SEB-YOLOv8s实时检测未经授权的无人机
摘要:针对无人机的实时检测,复杂背景下无人机小目标容易漏检、难以检测的问题。为了在降低内存和计算成本的同时保持较高的检测性能,本文提出了SEB-YOLOv8s检测方法。首先,使用SPD-Conv重建YOLOv8网络结构,以减少计算负担并加快处理速度,同时保留更多小目标的浅层特征。其次,我们设计了AttC2f模块,并用它替换了YOLOv8s主干中的C2f模块,增强了模型获取准确信息的能力,丰富了提取的相关信息。最后,引入双层路由注意优化网络的颈部部分,降低模型对干扰信息的注意并过滤掉。原创 2024-12-07 10:02:41 · 1302 阅读 · 0 评论 -
【遥感目标检测综述】【GRSS】遥感目标检测与深度学习的相遇:挑战与进展的元综述
遥感目标检测(RSOD)是遥感领域最基础和最具挑战性的任务之一,长期以来一直受到人们的关注。近年来,深度学习技术展示了强大的特征表示能力,并导致了RSOD技术发展的巨大飞跃。在这个技术快速发展的时代,这篇综述旨在全面回顾基于深度学习的RSOD方法的最新成就。这篇综述涵盖了300多篇论文。我们确定了RSOD中的五个主要挑战,包括多尺度目标检测、旋转目标检测、弱目标检测、微小目标检测和有限监督下的目标检测,并以分层划分的方式系统地回顾了相应的方法。原创 2024-12-04 09:25:42 · 3759 阅读 · 0 评论 -
【TPAMI 2023】【小目标检测综述】Towards Large-Scale Small Object Detection:Survey and Benchmarks
摘要——随着深度卷积神经网络的兴起,目标检测在过去几年中取得了显著的进展。然而,这种繁荣并不能掩盖小目标检测(SOD)的不令人满意的情况,SOD是计算机视觉中众所周知的具有挑战性的任务之一,由于小目标的内在结构导致的不良视觉外观和噪声表示。此外,用于对小目标检测方法进行基准测试的大规模数据集仍然是一个瓶颈。在本文中,我们首先对小目标检测进行了全面的回顾。然后,为了促进SOD的发展,我们构建了两个大规模小目标检测数据集(SODA),SODA-D和SODAA,分别关注驾驶和空中场景。原创 2024-12-03 19:05:48 · 3834 阅读 · 0 评论 -
【目标检测】NMS算法的理论讲解
②根据置信度的阈值过滤已有的预测框,根据我们设置的置信度的阈值T,假设我们现在设置阈值T为0.7,那么现有的置信度小于0.7的检测框就都被排除掉了,剩下的大于0.7的才能入选到预测框的集合B中去。⑤从B集合中选择置信度最高的检测框b,放到我们最终需要的返回结果F集合中,b肯定有冗余框,但是不要紧,为什么呢?③对于入选B集合的检测框,我们按照置信度分数进行排序,因为如果要保留检测框,肯定是希望保留置信度更高的。⑥对于B集合中剩下的检测框,我们逐个将其与b做IoU的计算,这个计算结果只要大于IoU的阈值。原创 2024-03-26 16:44:49 · 874 阅读 · 0 评论 -
【论文翻译】UP-DETR—Unsupervised Pre-training for Detection Transformers
我们提出了一种新的前置任务,称为随机查询图像块检测,以无监督地预训练DETR中的Transformer model。在无监督预训练的情况下,UP-DETR在PASCAL VOC上以更高的精度和更快的收敛速度显著优于DETR。对于具有足够训练数据的挑战性COCO数据集,即使训练时间表很长,UP-DETR仍然超过DETR。这表明预训练Transformer model对于目标检测中不同规模的训练数据是不可或缺的。此外,UP-DETR还为一次性检测提供了统一的视角。它显著提高了一次性检测任务的性能。原创 2024-03-15 22:05:12 · 1667 阅读 · 0 评论 -
【ViT】Vision Transformer的实现01 patch embedding
输入的通道数是3 embed_dim既是我们要求的输出通道数即每个token的特征维数,同时在卷积运算里面这代表着这层有多少个卷积核,224的图像,我们设置每个patch图像块的尺寸是16,因此呢,我们可以从H和W两个维度将原图像进行分割,然后flatten(2),在第二维上进行展开 (8,768,16,16)变成了(8,768,16*16)然后卷积核的大小就是patch的大小16,步长的大小也是patch的大小16,这个意思就相当于用16。patch_size是我们分割的图像块的大小 16 像素。原创 2024-03-08 20:54:17 · 1713 阅读 · 0 评论 -
【论文精读】【ViT】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
虽然Transformer model体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们表明,这种对CNN的依赖是不必要的,直接应用于图像块序列的纯Transformer model可以很好地执行图像分类任务。原创 2024-03-08 19:02:22 · 1421 阅读 · 0 评论