- 博客(182)
- 资源 (1)
- 收藏
- 关注
原创 【目标检测】【YOLO综述】YOLOv1到YOLOv10:最快速、最精准的实时目标检测系统
摘要——本文是对YOLO系列系统的全面综述。与以往文献调查不同,本综述文章从最新技术视角重新审视了YOLO系列的特性。同时,我们还分析了YOLO系列如何持续影响并推动实时计算机视觉相关研究,以及如何引领后续计算机视觉与语言模型的发展。我们深入探讨了过去十年间YOLO系列提出的方法如何影响后续技术演进,并展示了YOLO在各领域的应用场景。希望本文能为后续实时计算机视觉的发展起到良好的指导作用。索引关键词—YOLO,计算机视觉,实时目标检测。
2025-04-15 16:21:54
1207
原创 【目标检测综述】20年目标检测技术综述
摘要—目标检测作为计算机视觉领域最基础且最具挑战性的问题之一,近年来受到极大关注。过去二十年间,我们见证了目标检测技术的快速演进及其对整个计算机视觉领域的深远影响。若将当前以深度学习为驱动的目标检测技术视作一场革命,那么回溯至20世纪90年代,我们便能领略早期计算机视觉研究者独具匠心的思维与极具前瞻性的设计。
2025-04-15 11:36:30
727
原创 顶刊【遥感舰船目标检测】【TGRS】CM-YOLO:基于上下文调制表征学习的船舶检测方法
摘要—船舶检测在军事和民用领域均具有重要应用价值。现有方法主要关注显著的海上船舶,对易与复杂背景混淆的近岸船舶关注不足。利用位置、形状等上下文信息可提升复杂环境下的船舶检测与分类性能。本文提出一种基于上下文调制表征学习的检测方法CM-YOLO,其采用包含骨干网络、颈部网络和检测头的经典检测器设计框架,输入图像依次通过这三个组件获得检测结果。
2025-04-13 06:52:37
1237
原创 顶刊【遥感目标检测】【TGRS】LSKF-YOLO:面向高分辨率卫星遥感影像电力塔检测的大规模选择性核特征融合网络
摘要——随着高分辨率卫星遥感观测技术的快速发展,基于卫星遥感影像的电力塔检测已成为电力智能巡检的关键研究方向。然而,由于复杂背景、目标尺寸小且不均匀等问题,卫星遥感影像中电力塔检测性能仍有待提升。为此,本文首先构建了多场景高分辨率卫星遥感电力塔数据集,进而提出面向高分辨率卫星遥感影像的大选择性核特征融合(LSKF)-YOLO网络。该网络主要由大空间核选择性注意力融合模块和多尺度特征对齐融合(MFAF)结构组成。
2025-04-10 16:55:09
1052
原创 顶刊【遥感目标检测】【TGRS】Enhanced Target Detection:Fusion of SPD and CoTC3 Within YOLOv5 Framework
摘要—高分辨率遥感图像识别具有重要意义,可广泛应用于城市规划、土地利用等领域。现有模型在训练过程中过度关注图像的纹理和细粒度特征,忽略了特征图中更广泛的上下文信息,这降低了模型识别目标的能力。为提高检测精度与鲁棒性,我们提出一种改进版YOLOv5框架,专门针对具有小目标和低分辨率特点的遥感图像分析。通过引入空间到深度(SPD)组件,并采用空洞卷积和深度可分离卷积,增强了模型感知目标属性的能力。此外,我们提出上下文Transformer聚焦综合卷积(CoTC3)模块,将其无缝集成至YOLOv5核心架构。
2025-04-10 16:19:26
1017
原创 顶刊【TGRS】【遥感目标检测】AMFLW-YOLO:基于注意力机制与多尺度特征融合的轻量化遥感图像检测网络
摘要—遥感图像中目标尺度变化大且多样,存在大量分布密集的小目标及高复杂度的图像背景。基于深度学习的物体检测算法网络参数量与计算量庞大,难以在性能固定且计算资源有限的平台上部署。本文提出一种轻量级遥感目标检测模型AMFLW-YOLO(注意力与多尺度特征融合轻量YOLO)。该模型在骨干网络中采用深度可分离卷积、逆残差结构和线性瓶颈结构替代标准卷积层,以降低参数量;在特征融合网络引入坐标注意力机制(CA),同步捕获跨通道的方向与位置感知信息,提升网络精度;
2025-03-30 11:52:26
621
原创 【通道注意力机制】【SENet】Squeeze-and-Excitation Networks
卷积神经网络建立在卷积操作的基础上,通过融合局部感受野内的空间和通道信息来提取有意义的特征。为了增强网络的表示能力,最近的一些方法展示了增强空间编码的好处。在本研究中,我们专注于通道关系,并提出了一种新颖的架构单元,称为“压缩-激励”(SE)块,它通过显式建模通道之间的相互依赖关系,自适应地重新校准通道特征响应。我们证明,通过堆叠这些块,可以构建在具有挑战性的数据集上表现出色的SENet架构。关键的是,我们发现SE块在现有最先进的深度架构中,以最小的额外计算成本,带来了显著的性能提升。
2025-03-29 23:06:19
934
原创 顶刊【遥感目标检测】【TGRS】FFCA-YOLO遥感图像小目标检测
摘要——特征表征不足、背景干扰等问题使得遥感图像中的小目标检测任务极具挑战性。尤其在算法需部署于星载设备进行实时处理时,需在有限计算资源下对精度与速度进行深度优化。为此,本文提出一种名为特征增强-融合与上下文感知YOLO(FFCA-YOLO)的高效检测器。
2025-03-29 19:38:18
1003
原创 【YOLO】【遥感目标检测】Object Detection in Remote Sensing Images using YOLOv8
摘要—在遥感图像(RSIs)中检测物体对于从城市规划到灾害响应的各种应用至关重要。然而,当前的深度学习模型由于依赖固定的锚框以及图像中缺乏物体上下文线索,往往表现不佳。为此,我们开发了一种基于YOLOv8技术的专门用于分析遥感图像的目标检测系统。该框架旨在准确识别复杂卫星图像中的物体。通过利用DIOR数据集并将传统注释精心转换为YOLO格式,模型经过严格的训练,最终实现了显著的精度提升。与传统方法不同,该框架特别强调场景上下文特征的整合以及前沿数据增强策略的实施。
2025-03-27 11:21:17
1025
原创 【注意力机制】【医学图像分割】DuAT用于医学图像分割的双聚合Transformer网络
DuAT:用于医学图像分割的双聚合Transformer网络PRCV 2022。
2025-03-27 11:17:22
530
原创 【遥感小目标数据集】【AI-TOD】Tiny Object Detection in Aerial Images
摘要—近年来,地球视觉中的目标检测取得了巨大进展。然而,航空图像中的微小目标检测仍然是一个非常具有挑战性的问题,因为微小目标包含的像素数量较少,并且容易与背景混淆。为了推动航空图像中微小目标检测的研究,我们提出了一个新的数据集,即航空图像中的微小目标检测数据集(AI-TOD)。具体而言,AI-TOD包含28,036张航空图像中的八类共700,621个目标实例。与现有的航空图像目标检测数据集相比,AI-TOD中目标的平均大小约为12.8像素,远小于其他数据集。
2025-03-26 16:43:05
1630
原创 【遥感小目标检测】YOLO-FNC
摘要—遥感图像中小目标的检测算法由于复杂的背景和有限的像素,往往具有挑战性。这可能导致检测精度降低和小目标漏检数量增加。因此,本文提出了一种基于YOLOv7的增强网络YOLOFNC。为了提高模型捕捉小目标特征的能力,设计了一种基于C3模块的增强型C3-Faster模块,并将其集成到YOLOv7网络中。该模块有助于提取更多与小目标相关的特征。此外,我们采用归一化Wasserstein距离(NWD)融合GIoU作为新的损失函数,以优化网络权重和小目标回归框架的精度。
2025-03-21 08:35:08
730
原创 【反无人机目标检测】DRBD-YOLOv8
摘要:由于对无人飞行器(UAV)相关的安全和隐私问题的日益关注,反无人机检测系统的兴趣不断增加。在边缘计算设备资源有限的情况下,实现高精度的实时检测是反无人机检测面临的一个重大挑战。现有的基于深度学习的反无人机检测模型往往无法在精度、处理速度、模型大小和计算效率之间取得平衡。为了解决这些局限性,本文提出了一种轻量级且高效的反无人机检测模型DRBD-YOLOv8。
2025-03-12 13:14:52
2089
1
原创 【反无人机目标检测数据集】MIDGARD:关于基于机器学习的微型无人机视觉相对定位的训练数据集
摘要——通过利用我们相对微型无人机定位传感器UVDAR,我们生成了一个自动标注的数据集MIDGARD,邀请社区使用该数据集来训练和测试其机器学习系统,以实现微型无人机(MAV)对其他MAV的检测和定位。此外,我们提供我们的系统作为一种快速生成定制标注数据集的机制,专门针对特定应用的需求。最近的文献中,机器学习方法在自动化和机器人领域的应用非常丰富。其中,视觉目标检测与定位是这些方法的一个子集,使用诸如卷积神经网络等手段,如今能够以以前难以想象的精度和可靠性检测和分类目标。
2025-03-12 13:06:03
1014
原创 【反无人机目标检测数据集】空对空视觉检测微型无人机:深度学习的实验评估
摘要—本文研究了利用单目摄像头进行空中对微型无人机(UAV)视觉检测的问题。该问题在许多应用中具有重要意义,例如基于视觉的无人机集群、恶意无人机检测以及无人机的“看见并避让”系统。尽管深度学习方法在许多目标检测任务中表现出色,但其在无人机检测中的潜力尚未得到充分探索。作为本文的第一个主要贡献,我们提出了一个名为Det-Fly的新数据集,该数据集包含由另一架飞行无人机获取的超过13,000张目标无人机飞行图像。
2025-03-11 19:06:44
1661
原创 【反无人机数据集】【目标检测】基于深度学习和距离分析的无人机检测图像处理技术应用
无人机在我们的日常生活中有许多应用,可以用于农业、军事、商业、灾害救援、研发等多种用途。近年来,小型无人机/无人飞行器的使用显著增加。因此,小型无人机被滥用于非法活动(如恐怖主义和毒品走私)的潜在风险也在上升。因此,需要一种能够在各种环境中使用的准确且可靠的无人机识别技术。本文基于计算机视觉和深度学习的原理,使用了当前最先进的目标检测模型(即YOLO模型)的不同版本来检测小型无人机。为了提高小型无人机的检测精度,本文提出将多种图像处理技术应用于现有检测模型,从而显著提升了性能。
2025-03-11 15:06:22
1148
原创 【目标检测】【NeuralPS 2023】Gold-YOLO:通过收集与分发机制实现的高效目标检测器
在过去的几年中,YOLO系列模型已成为实时目标检测领域的领先方法。许多研究通过修改架构、增强数据和设计新的损失函数,将基线提升到了更高的水平。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)已经缓解了这一问题,但之前的模型仍然存在信息融合问题。因此,本研究提出了一种先进的“收集与分发”机制(GD机制),该机制通过卷积和自注意力操作实现。这种新设计的模型名为Gold-YOLO,它增强了多尺度特征融合能力,并在所有模型规模上实现了延迟与准确性的理想平衡。
2025-03-07 21:23:16
1235
原创 【目标检测】Efficient Feature Fusion for UAV Object Detection
无人机(UAV)遥感图像中的目标检测面临诸多挑战,如图像质量不稳定、目标尺寸小、背景复杂以及环境遮挡等。特别是小目标在图像中占据的比例较小,导致其准确检测极为困难。现有的多尺度特征融合方法通过聚合不同分辨率的特征,在一定程度上应对了这些挑战。然而,由于特征表示不足和网络信息流不平衡,这些方法往往无法有效平衡小目标的分类和定位性能。本文提出了一种专门为无人机目标检测任务设计的新型特征融合框架,旨在同时提升定位精度和分类性能。
2025-03-07 20:57:35
791
原创 【目标检测】【CVPR 2025】DEIM:具有改进匹配机制的DETR以实现快速收敛
我们介绍了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛速度。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。该方法通过引入额外目标并使用标准数据增强技术,增加了每张图像的正样本数量。虽然密集O2O匹配加快了收敛速度,但也引入了大量低质量匹配,可能影响性能。为了解决这一问题,我们提出了可匹配性感知损失(MAL),这是一种新颖的损失函数,能够优化不同质量水平的匹配,从而增强密集O2O的有效性。
2025-03-06 21:44:46
2747
1
原创 【CVPR 2024】【实时目标检测】D-FINE:将DETRS中的回归任务重新定义为细粒度分布优化
我们推出了D-FINE,这是一种强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了卓越的定位精度。D-FINE包含两个关键组件:细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代优化概率分布,提供了细粒度的中间表示,显著提升了定位精度。GO-LSD是一种双向优化策略,通过自蒸馏将定位知识从优化后的分布传递到较浅层,同时简化了较深层的残差预测任务。
2025-03-06 08:53:07
1097
原创 【CVPR 2024】【多模态目标检测】SHIP 探究红外与可见光图像融合中的高阶协同交互
红外与可见光图像融合旨在通过整合和区分多源互补信息生成融合图像。尽管具有全局空间交互的交叉注意力机制表现出潜力,但它仅捕捉了二阶空间交互,忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态协同效应的充分利用。为了弥补这一差距,我们提出了一种协同高阶交互范式(SHIP),旨在系统地研究红外与可见光图像在空间细粒度和全局统计两个基本维度上的协作:1)空间维度:通过逐元素乘法构建空间细粒度交互,数学上等同于全局交互,然后通过迭代聚合和演化互补信息,促进高阶形式,提升效率和灵活性;
2025-03-05 10:35:58
1547
原创 【多模态目标检测】M2FNet:基于可见光与热红外图像的多模态融合目标检测网络
融合可见光(VIS)和热红外(TIR)图像的多模态信息对于在完全适应不同光照条件下的目标检测至关重要。然而,由于缺乏同时标注VIS和TIR配准图像的训练数据,现有模型通常将VIS和TIR图像视为独立信息,并通过单独的网络提取相应特征。为了填补这一空白,本文提出了一种基于Transformer架构的新型多模态融合网络(M2FNet),其中包含两个有效模块:联合模态注意力(UMA)和跨模态注意力(CMA)。UMA模块聚合了来自VIS和TIR图像的多光谱特征,然后通过卷积神经网络(CNN)骨干网络提取多模态特征。
2025-03-05 10:25:44
2040
原创 【多模态目标检测】【AAAI 2025】FD2-Net
红外-可见光目标检测(IVOD)旨在利用红外和可见光图像中的互补信息,从而提升检测器在复杂环境中的性能。然而,现有方法往往忽略了互补信息的频率特性,例如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,从而限制了检测性能。为了解决这一问题,我们提出了一种新颖的频率驱动特征分解网络,称为FD2-Net,它能够有效捕捉跨模态视觉空间中互补信息的独特频率表示。
2025-03-04 15:15:17
1821
6
原创 【多模态目标检测】DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection
在低光照环境下进行目标检测是一项具有挑战性的任务,因为物体在RGB图像中通常不清晰可见。由于红外图像提供了补充RGB图像的清晰边缘信息,融合RGB和红外图像有潜力增强低光照环境下的检测能力。然而,现有涉及可见光和红外图像的工作仅关注图像融合,而非目标检测。此外,它们直接融合了两种图像模态,忽略了它们之间的相互干扰。
2025-03-04 10:08:14
1821
原创 【大模型LLM】【DeepSeek-V2】DeepSeek-V2:A Strong, Economical, and Efficient Mixture-of-Experts Language Mod
我们推出DeepSeek-V2,这是一款强大的专家混合(MoE)语言模型,具有经济高效的训练和推理能力。该模型包含2360亿个参数,其中每个token激活210亿个参数,并支持128K token的上下文长度。DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将键值(KV)缓存显著压缩为潜在向量,确保了高效的推理,而DeepSeekMoE则通过稀疏计算实现了以经济成本训练强大模型。
2025-02-23 11:36:07
856
原创 【大模型LLM】DeepSeek LLM Scaling Open-Source Language Models with Longtermism
开源大语言模型(LLMs)的快速发展确实令人瞩目。然而,以往文献中描述的扩展规律得出了不同的结论,这为LLMs的扩展蒙上了一层阴影。我们深入研究了扩展规律,并提出了独特的研究成果,这些成果有助于在两种广泛使用的开源配置(7B和67B)中扩展大规模模型。在扩展规律的指导下,我们推出了DeepSeek LLM项目,致力于从长远角度推动开源语言模型的发展。为了支持预训练阶段,我们开发了一个目前包含2万亿token且不断扩展的数据集。
2025-02-22 22:00:48
1026
原创 【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,没有经过监督微调(SFT)作为初步步骤,展现了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在RL之前引入了多阶段训练和冷启动数据。
2025-02-22 17:22:55
1228
原创 【目标检测】【PANet】Path Aggregation Network for Instance Segmentation
信息在神经网络中的传播方式至关重要。在本文中,我们提出了路径聚合网络(PANet),旨在增强基于提议的实例分割框架中的信息流动。具体而言,我们通过自底向上的路径增强,在较低层中引入精确的定位信号,从而缩短了较低层与最顶层特征之间的信息路径。我们提出了自适应特征池化,将特征网格与所有特征层级连接起来,使每个层级中的有用信息能够直接传播到后续的提议子网络中。此外,我们还创建了一个互补分支,为每个提议捕捉不同的视角,以进一步提高掩码预测的准确性。
2025-02-21 22:35:21
1200
原创 【目标检测】【BiFPN】EfficientDet:Scalable and Efficient Object Detection
模型效率在计算机视觉中变得越来越重要。在本文中,我们系统地研究了用于目标检测的神经网络架构设计选择,并提出了几项关键优化以提高效率。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它可以轻松快速地进行多尺度特征融合;其次,我们提出了一种复合缩放方法,可以同时统一缩放所有骨干网络、特征网络以及框/类别预测网络的分辨率、深度和宽度。基于这些优化和EfficientNet骨干网络,我们开发了一个新的目标检测器系列,称为EfficientDet,它在广泛的资源限制范围内始终比现有技术实现更高的效率。
2025-02-21 21:44:03
1282
原创 【目标检测】【YOLOv4】YOLOv4:目标检测的最佳速度与精度
有许多特征被认为可以提高卷积神经网络(CNN)的准确性。需要在大规模数据集上对这些特征的组合进行实际测试,并对结果进行理论上的验证。某些特征仅适用于特定模型和特定问题,或仅适用于小规模数据集;而一些特征,如批量归一化和残差连接,适用于大多数模型、任务和数据集。我们假设这些通用特征包括加权残差连接(WRC)、跨阶段部分连接(CSP)、跨小批量归一化(CmBN)、自对抗训练(SAT)和Mish激活函数。
2025-02-20 09:22:24
1389
原创 【目标检测】CSPNET:A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN
神经网络在计算机视觉任务(如目标检测)中实现了最先进的方法,取得了令人瞩目的成果。然而,这种成功在很大程度上依赖于昂贵的计算资源,这使得使用廉价设备的人们难以享受到这一先进技术。在本文中,我们提出了跨阶段部分网络(CSPNet),从网络架构的角度缓解了以往工作对大量推理计算的需求。我们将这一问题归因于网络优化过程中梯度信息的重复。所提出的网络通过整合网络阶段开始和结束时的特征图,尊重了梯度的变异性。
2025-02-20 09:09:35
1204
原创 【目标检测】【YOLOv12】YOLOv12:Attention-Centric Real-Time Object Detectors
长期以来,增强YOLO框架的网络架构一直至关重要,但主要集中在基于CNN的改进上,尽管注意力机制在建模能力上已被证明具有优越性。这是因为基于注意力的模型无法与基于CNN的模型在速度上相匹敌。本文提出了一种以注意力为核心的YOLO框架,即YOLOv12,它在保持与之前基于CNN模型相同速度的同时,充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。
2025-02-19 22:02:42
2854
原创 【LLM的基座:注意力机制论文】Attention Is All You Need
在本节中,我们将自注意力层的各个方面与常用于将一个可变长度的符号表示序列x1xnx1...xn映射到另一个等长序列z1znz1...zn的循环层和卷积层进行比较,其中xizi∈Rdxizi∈Rd,例如典型的序列转导编码器或解码器中的隐藏层。为了说明我们使用自注意力的动机,我们考虑了三个需求。一个是每层的总计算复杂度。另一个是可以并行化的计算量,以所需的最小顺序操作数来衡量。第三个是网络中长距离依赖之间的路径长度。
2025-02-13 13:14:27
499
原创 【多视图学习】Self-Weighted Contrastive Fusion for Deep Multi-View Clustering
多视图聚类可以从多个视图中探索共识信息,在过去二十年中越来越受到关注。然而,现有的工作面临两个主要挑战:i)如何处理学习视图共识信息和重建不一致的视图私有信息之间的冲突,以及ii)如何减轻由实现多视图数据的一致性目标引起的表示退化。为了解决这些挑战,我们提出了一种新的深度多视图聚类(SCMVC)的自加权对比融合框架。首先,我们的方法建立了一个层次化的特征融合框架,有效地分离了一致性目标和重建目标。然后,通过最大化视图一致性表示和全局表示之间的一致性表达来实现多视图对比融合,充分挖掘视图的一致性和互补性。
2025-01-25 15:46:27
1111
原创 【多视图学习】显式视图-标签问题:多视图聚类的多方面互补性研究
摘要-一致性和互补性是促进多视图聚类(MVC)的两个关键因素。最近,随着流行的对比学习的引入,视图的一致性学习在MVC中得到了进一步的增强,导致了有希望的性能。然而,相比之下,除了在特征方面之外,互补性没有得到足够的关注,在特征方面,通常采用Hilbert Schmidt独立性准则项或独立编码器-解码器网络来捕获视图特定的信息。这促使我们在保持视图一致性的同时,从特征、视图标签和对比等多个方面全面重新考虑视图的互补性学习。
2025-01-23 07:06:41
1201
原创 【遥感目标检测】【数据集】DOTA:用于航空图像中目标检测的大规模数据集
目标检测是计算机视觉中一个重要而富有挑战性的问题。尽管过去十年见证了自然场景中目标检测的重大进展,但这种成功在航空图像中进展缓慢,这不仅是因为地球表面上目标实例的规模、方向和形状的巨大变化,还因为航空场景中目标的注释良好的数据集的稀缺。为了推进地球视觉(也称为地球观测和遥感)中的目标检测研究,我们引入了一个用于航空图像中目标检测(DOTA)的大规模数据集。为此,我们从不同的传感器和平台收集了2806幅航拍图像。每个图像的大小约为4000 × 4000像素,并且包含呈现各种比例、方向和形状的目标。
2025-01-16 12:18:21
1491
原创 【CVPR 2024】【遥感目标检测】Poly Kernel Inception Network for Remote Sensing Detection
遥感图像(RSIs)中的目标检测经常面临几个日益增加的挑战,包括目标尺度的巨大变化和不同范围的背景。现有方法试图通过大核卷积或扩张卷积来扩展主干的空间感受野来解决这些挑战。然而,前者通常会引入相当大的背景噪声,而后者会产生过于稀疏的特征表示。在本文中,我们引入了多核inception网络(PKINet)来应对上述挑战。PKINet采用无膨胀的多尺度卷积核来提取不同尺度的特征并捕获局部上下文。此外,还并行引入了上下文锚注意力(CAA)模块来捕获远程上下文信息。
2025-01-04 08:54:34
2562
1
原创 【多模态聚类】用于无标记视频自监督学习的多模态聚类网络
多模态自监督学习越来越受到关注,因为它不仅允许在没有人工监督的情况下训练大型网络,还允许跨各种模态搜索和检索数据。在这种情况下,本文提出了一个框架,该框架从预训练的主干开始,学习一个公共的多模态嵌入空间,除了跨不同模态共享表示之外,还强制对语义相似的实例进行分组。为此,我们在训练管道中使用多模态聚类步骤扩展了实例级对比学习的概念,以捕获跨模态的语义相似性。由此产生的嵌入空间使得能够跨所有模态检索样本,甚至从不可见的数据集和不同的域中检索样本。
2024-12-23 12:01:00
1523
原创 【多视图学习】CONAN:用于多视图聚类的对比融合网络
摘要——随着大数据的发展,深度学习在多视图聚类上取得了显著进展。多视图融合是模型获得公共表示的关键技术。然而,现有文献采用的是浅层融合策略,如加权和融合和级联融合,这些策略无法从多个视图捕获复杂信息。在本文中,我们提出了一种新的融合技术,称为对比融合,它可以从多个视图中提取一致的表示,并保持特定视图表示的特性。具体来说,我们从信息瓶颈的角度研究多视图对齐,并引入一个中间变量来对齐每个视图特定的表示。此外,我们利用单视图聚类方法作为预测任务,以确保对比融合工作。
2024-12-22 21:00:19
1676
原创 【反无人机目标检测与跟踪】DUT Anti-UAV数据集介绍
其中包含检测和跟踪子集。检测数据集包括训练集(5200个图像)、验证集(2600个图像)和测试集(2200个图像)。跟踪数据集包括20个序列。DUT反无人机数据集包含检测和跟踪子集。检测数据集被分成训练集、测试集和验证集。跟踪数据集包含20个短期和长期序列。所有帧和图像都经过精确的手动注释。图像和物体的详细信息如表I所示。具体来说,检测数据集总共包含10,000幅图像,其中训练集、测试集和验证集分别具有5200、2200和2600幅图像。
2024-12-12 22:09:18
2179
1
目标检测历史,HistoryOfObjectRecognition
2024-03-03
模式识别算法MATLAB实现
2023-10-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人