【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 21 日论文合集）

最新推荐文章于 2025-01-10 14:48:37 发布

旅途中的宽~

最新推荐文章于 2025-01-10 14:48:37 发布

阅读量1k

点赞数 1

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉目标检测人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/132489293

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、检测相关(18篇)

一、检测相关(18篇)

1.1 LaRS: A Diverse Panoptic Maritime Obstacle Detection Dataset and Benchmark

LARS：一种多样化的全景海上障碍物检测数据集和基准

https://arxiv.org/abs/2308.09618

海洋障碍物检测的进展受到缺乏充分捕捉一般海洋环境的复杂性的多样化数据集的阻碍。我们提出了第一个海上全景障碍物检测基准LaRS，具有湖泊，河流和海洋的场景。我们的主要贡献是新的数据集，它拥有最大的多样性，在记录位置，场景类型，障碍类，和相关数据集之间的采集条件。LaRS由超过4000个每像素标记的关键帧与九个先前帧，以允许利用时间纹理，总计超过40k帧。每个关键帧都用8个东西、3个东西类和19个全局场景属性进行注释。我们报告了27种语义和全景分割方法的结果，以及一些性能见解和未来的研究方向。为了实现客观评估，我们实现了一个在线评估服务器。LaRS数据集、评估工具包和基准可在以下网址公开获取：https://lojzezust.github.io/lars-dataset

1.2 Far3D: Expanding the Horizon for Surround-view 3D Object Detection

Far3D：扩展环绕视点3D目标检测的视界

https://arxiv.org/abs/2308.09616

最近，从周围视图图像的3D目标检测已经取得了显着的进步，其部署成本低。然而，大多数工作主要集中在近距离感知范围，而离开远距离检测较少探索。直接扩展现有方法以覆盖长距离带来了诸如沉重的计算成本和不稳定的收敛等挑战。为了解决这些限制，本文提出了一种新的基于稀疏查询的框架，称为Far3D。通过利用高质量的2D对象先验，我们生成3D自适应查询，补充3D全局查询。为了有效地捕捉不同视图和尺度的远距离对象的区别性特征，我们引入了一个视角感知的聚合模块。此外，我们提出了一种范围调制的3D去噪方法，以解决查询错误传播和减轻收敛问题，在远程任务。值得注意的是，Far3D在具有挑战性的Argoverse 2数据集上展示了SoTA的性能，覆盖了150米的广泛范围，超过了几种基于LiDAR的方法。与此同时，Far3D在nuScenes数据集上表现出优于以前的方法的性能。代码将很快可用。

1.3 Deep Equilibrium Object Detection

深度均衡目标检测

https://arxiv.org/abs/2308.09564

基于查询的对象检测器直接将图像特征解码成具有一组可学习查询的对象实例。这些查询向量通过解码器层的序列逐步细化到稳定的有意义的表示，然后用于直接预测对象的位置和类别与简单的FFN头。在本文中，我们提出了一个新的基于查询的对象检测器（DEQDet）的设计一个深度均衡解码器。我们的DEQ解码器模型的查询向量细化为一个{隐式}层的定点求解，是等效的应用{无限}步骤的细化。更具体的对象解码，我们使用一个两步展开的平衡方程显式捕获查询向量细化。因此，我们能够将细化意识纳入DEQ训练与不精确梯度反向传播（RAG）。此外，为了稳定DEQDet的训练并提高其泛化能力，我们设计了一种基于改进感知扰动~（RAP）的DEQ优化路径的深度监督方案。我们的实验表明，DEQDet收敛得更快，消耗更少的内存，并实现了比基线对手（AdaMixer）更好的结果。特别是，我们的DEQDet与ResNet 50骨干和300个查询实现了$49.5 $$ mAP和 $33.0$ AP $_s$ 在MS COCO基准测试下的 $2\times$ 训练方案（24 epoch）。

1.4 Decoupled conditional contrastive learning with variable metadata for prostate lesion detection

用于前列腺病变检测的具有可变元数据的去耦合条件对比学习

https://arxiv.org/abs/2308.09542

前列腺癌的早期诊断是有效治疗的关键。多参数磁共振图像（mp-MRI）被广泛用于病变检测。前列腺成像报告和数据系统（PI-RADS）通过定义病变恶性程度的评分，标准化前列腺MRI的解释。PI-RADS数据可从放射学报告中轻松获得，但报告间变异性较高。我们提出了一个新的对比损失函数，利用弱元数据与每个样本多个注释器，并利用报告间的可变性定义元数据置信度。通过将不同置信度的元数据与未注释数据组合成单个条件对比损失函数，我们报告了在公共PI-CAI挑战数据集上病变检测的AUC增加3%。代码可在：https://github.com/camilleruppli/decoupled_ccl

1.5 Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning

基于由粗到精方案生成和模仿学习的小目标检测

https://arxiv.org/abs/2308.09534

在过去的几年里，物体检测取得了巨大的成功，而目前优秀的探测器在处理尺寸有限的情况下挣扎。具体地，众所周知的挑战，先验和对象区域之间的低重叠导致一个约束的样本池的优化，和缺乏的区分性信息进一步加剧识别。为了缓解上述问题，我们提出了CFINet，一个两阶段的框架定制的小对象检测的基础上粗到细的管道和特征模仿学习。首先，我们引入粗到细的RPN（CRPN），通过动态锚选择策略和级联回归，确保足够和高质量的建议小对象。然后，我们配备了传统的检测头的特征模仿（FI）分支，以便于区域表示的大小有限的实例，困扰模型在模仿的方式。此外，一个辅助模仿损失以下监督对比学习范式的设计，以优化这一分支。当与Faster RCNN集成时，CFINet在大规模小目标检测基准SODA-D和SODA-A上实现了最先进的性能，突出了其优于基线检测器和其他主流检测方法的优势。

1.6 MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection

MonoNeRD：单目三维目标检测的类NERF表示

https://arxiv.org/abs/2308.09421

在单目3D检测领域中，通常的做法是利用场景几何线索来提高检测器的性能。然而，许多现有的工作明确地采用这些线索，例如估计深度图并将其反投影到3D空间。这种显式的方法引起稀疏的3D表示由于增加的维度从2D到3D，并导致大量的信息丢失，特别是对于遥远和被遮挡的对象。为了缓解这个问题，我们提出了MonoNeRD，一种新的检测框架，可以推断密集的3D几何形状和占用。具体而言，我们建模的场景与符号距离函数（SDF），促进生产密集的3D表示。我们将这些表示作为神经辐射场（NeRF），然后采用体渲染来恢复RGB图像和深度图。据我们所知，这项工作是第一次引入体绘制M3 D，并展示了隐式重建的潜力，为基于图像的3D感知。在KITTI-3D基准测试和Waymo Open Dataset上进行的大量实验证明了MonoNeRD的有效性。代码可在https://github.com/cskkxjk/MonoNeRD获取。

1.7 Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization

多尺度目标感知约束图像拼接检测与定位框架

https://arxiv.org/abs/2308.09357

约束图像拼接检测与定位（CISDL）是多媒体取证的一项基本任务，它检测两幅可疑图像之间的拼接操作，并定位两幅图像上的拼接区域。最近的工作将其视为一个深匹配问题，并取得了重大进展。然而，现有框架通常执行特征提取和相关匹配作为单独的过程，这可能阻碍模型学习用于匹配的区分性特征的能力，并且可能容易受到来自模糊背景像素的干扰。在这项工作中，我们提出了一个多尺度的目标感知框架，以耦合特征提取和相关匹配在一个统一的管道。与以前的方法相比，我们设计了一个目标感知的注意机制，共同学习的特征，并执行探针和供体图像之间的相关性匹配。我们的方法可以有效地促进相关补丁的协作学习，并实现特征学习和相关匹配的相互促进。此外，为了处理尺度变换，我们引入了一个多尺度的投影方法，它可以很容易地集成到我们的目标感知框架，使注意力过程之间进行包含不同尺度的信息的令牌。我们的实验表明，我们的模型，它使用一个统一的管道，优于国家的最先进的方法几个基准数据集，是强大的规模转换。

1.8 Rethinking Image Forgery Detection via Contrastive Learning and Unsupervised Clustering

基于对比学习和无监督聚类的图像伪造检测再思考

https://arxiv.org/abs/2308.09307

图像伪造检测的目的是检测和定位图像中的伪造区域。大多数现有的伪造检测算法制定分类问题，以将像素分类为伪造或原始。然而，伪造和原始像素的定义仅在一个单个图像内是相对的，例如，图像A中的伪造区域实际上是其源图像B中的原始区域（拼接伪造）。这样的相对定义已经被现有的方法严重忽视，这些方法不必要地将伪造的（原始的）区域跨不同的图像混合到相同的类别。为了解决这个难题，我们提出了FOCAL方法，一种新的，简单的，但非常有效的范例的基础上对比学习和无监督聚类的图像伪造检测。具体而言，FOCAL1）利用像素级对比学习，以逐图像的方式监督高级取证特征提取，明确地反映了上述相对清晰度; 2）采用动态无监督聚类算法（而不是训练的算法）将学习到的特征聚类成伪造/原始类别，进一步抑制来自训练数据的交叉图像影响;以及3）允许通过简单的特征级级联进一步提高检测性能而不需要再训练。在六个公开测试数据集上的大量实验结果表明，我们提出的FOCAL显着优于最先进的竞争算法，大大的利润率：在IoU方面，覆盖率为+24.3%，哥伦比亚+18.6%，FF +17.5%，MISD +14.2%，CASIA +13.5%，NIST +10.3%。FOCAL的范式可以带来新的见解，并作为一个新的基准图像伪造检测任务。该代码可在www.example.com上获得。

1.9 RFDforFin: Robust Deep Forgery Detection for GAN-generated Fingerprint Images

RFDforFin：针对GaN指纹图像的稳健深度伪造检测

https://arxiv.org/abs/2308.09285

随着图像生成技术的飞速发展，GAN生成的指纹图像在某些情况下被恶意滥用对公共安全构成了重大威胁。虽然现有的通用深度伪造检测方法可以应用于检测伪造指纹图像，但它们容易受到攻击并且鲁棒性差。同时，目前还没有专门设计的指纹图像深度伪造检测方法。在本文中，我们提出了第一种深度伪造检测方法的指纹图像，它结合了独特的脊特征的指纹和生成伪影的GAN生成的图像，以我们的知识。具体而言，我们首先构建一个脊线流，利用沿脊线的灰度变化提取独特的指纹特定特征。然后，我们构造一个生成伪影流，其中的FFT为基础的频谱的输入指纹图像被利用，提取更鲁棒的生成伪影特征。最后，将独特的脊特征和生成伪影特征融合用于二进制分类（\textit{即真的或假的）。综合实验表明，我们提出的方法是有效的，鲁棒性低的复杂度。

1.10 Progression-Guided Temporal Action Detection in Videos

基于进程导引的视频时间动作检测

https://arxiv.org/abs/2308.09268

我们提出了一个新的框架，动作进展网络（APN），时间动作检测（TAD）的视频。该框架通过检测动作演化过程来定位视频中的动作。为了编码动作演化，我们将一个完整的动作过程量化为101个有序的阶段（0%，1%，…100%），称为动作进展。然后，我们训练一个神经网络来识别动作进行。框架通过检测视频中的完整动作过程来检测动作边界，例如，具有检测到的动作进展的视频片段紧密地遵循序列0%，1%，…百分百该框架具有三大优势：（1）我们的神经网络是端到端训练的，对比传统的分别优化模块的方法;（2）仅使用动作帧来训练APN，使得模型能够在动作分类数据集上训练，并且对于具有与训练中的那些不同的时间背景风格的视频具有鲁棒性;（3）我们的框架有效地避免了检测不完整的动作，并且由于对动作的时间结构进行了细粒度和显式的编码，在检测持久的动作方面表现出色。利用这些优势，APN实现了具有竞争力的性能，并且在检测持久行动方面显著超过了同行。在IoU阈值为0.5的情况下，APN在THUMOS 14数据集上实现了58.3%的平均精度（mAP），在DFMAD 70数据集上实现了98.9%的平均精度。

1.11 SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera Videos

SparseBEV：多摄像机视频中的高性能稀疏3D目标检测

https://arxiv.org/abs/2308.09244

在过去的几年中，基于相机的3D目标检测在BEV（鸟瞰图）空间中引起了极大的关注。密集检测器通常遵循两阶段流水线，首先构建密集BEV特征，然后在BEV空间中执行对象检测，这遭受复杂的视图变换和高计算成本。另一方面，稀疏检测器遵循基于查询的范式，没有显式的密集BEV特征构建，但实现比密集对应更差的性能。在本文中，我们发现，减轻这种性能差距的关键是在BEV和图像空间的检测器的适应性。为了实现这一目标，我们提出了SparseBEV，一个完全稀疏的3D对象检测器，优于密集的同行。SparseBEV包含三个关键设计，即（1）在BEV空间中对具有自适应感受域的聚合特征的尺度自适应自注意，（2）在查询的指导下自适应时空采样以生成采样位置，以及（3）自适应混合以从查询中解码具有动态权重的采样特征。在nuScenes的测试拆分上，SparseBEV实现了67.5 NDS的最先进性能。在val split上，SparseBEV实现了55.8 NDS，同时保持了23.5 FPS的实时推理速度。代码可在https://github.com/MCG-NJU/SparseBEV上获得。

1.12 Improving Buoy Detection with Deep Transfer Learning for Mussel Farm Automation

用于贻贝养殖场自动化的深度迁移学习改进浮标检测

https://arxiv.org/abs/2308.09238

新西兰的水产养殖业正在经历快速扩张，尤其是贻贝出口。随着贻贝养殖业务需求的不断发展，人工智能和计算机视觉技术的集成，如智能物体检测，正在成为提高运营效率的有效方法。本研究通过利用深度学习方法进行智能贻贝养殖场监测和管理，深入探讨了推进浮标检测。主要目标集中在提高探测浮标的准确性和鲁棒性，跨越一系列现实世界的场景。捕获来自贻贝养殖场的各种数据集并标记用于训练，包括从安装在浮动平台和穿越船只上的摄像机拍摄的图像，捕捉各种照明和天气条件。为了用有限数量的标记数据建立有效的深度学习模型，我们采用了迁移学习技术。这涉及适配预训练的对象检测模型以创建专门的深度学习浮标检测模型。我们探索了不同的预训练模型，包括YOLO及其变体，以及数据多样性，以研究它们对模型性能的影响。我们的研究表明，通过深度学习，浮标检测性能显著增强，同时在不同天气条件下的泛化能力得到改善，突出了我们方法的实际有效性。

1.13 ImGeoNet: Image-induced Geometry-aware Voxel Representation for Multi-view 3D Object Detection

ImGeoNet：用于多视点三维目标检测的图像诱导几何感知体素表示

https://arxiv.org/abs/2308.09098

我们提出了ImGeoNet，一个基于多视图图像的3D对象检测框架，模型的3D空间的图像诱导的几何感知体素表示。与以前将2D特征聚合成3D体素而不考虑几何形状的方法不同，ImGeoNet学习从多视图图像中诱导几何形状，以减轻自由空间体素引起的混乱，并且在推理阶段，仅需要来自多个视图的图像。此外，我们的表示可以利用强大的预训练2D特征提取器，从而获得更强大的性能。为了评估ImGeoNet的有效性，我们进行了定量和定性的实验三个室内数据集，即ARKitScenes，ScanNetV2，ScanNet200。结果表明，ImGeoNet优于目前最先进的基于多视图图像的方法，ImVoxelNet，在所有三个数据集上的检测精度。此外，ImGeoNet显示了很高的数据效率，通过实现与ImVoxelNet具有100个视图的结果相媲美，而仅利用40个视图。此外，我们的研究表明，我们提出的图像诱导的几何感知表示可以使基于图像的方法在两个实际场景中获得比基于点云的开创性方法VoteNet更高的检测精度：（1）点云稀疏且噪声较大的场景，例如ARKitScenes中，以及（2）场景涉及不同对象类，特别是小对象类，如ScanNet200中的情况。

1.14 Semantic Information for Object Detection

用于目标检测的语义信息

https://arxiv.org/abs/2308.08990

在本文中，我们证明了语义一致性的概念和随之而来的知识感知再优化的方法可以适应复杂的交通场景中的对象检测的问题。此外，我们介绍了一种新的方法提取知识图从提供实例级注释的图像数据集，并集成了这个新的知识图与现有的语义一致性模型。结合这种新的混合知识图和先前存在的频率分析和外部知识图的语义信息的来源的方法，我们调查知识感知的重新优化Faster-RCNN和DETR对象检测模型的有效性。我们发现，有限的，但一致的改善精度和/或召回，可以实现使用这种方法的所有组合的模型和方法研究。

1.15 SDDNet: Style-guided Dual-layer Disentanglement Network for Shadow Detection

SDDNet：风格制导的双层解缠阴影检测网络

https://arxiv.org/abs/2308.08935

尽管阴影检测有了显著的进展，但当前的方法仍然与背景颜色的不利影响作斗争，背景颜色可能导致错误时，阴影存在于复杂的背景。从人类视觉系统的灵感，我们把输入的阴影图像作为一个组成的背景层和阴影层，并设计了一个风格引导的双层解纠缠网络（SDDNet），这些层独立建模。为了实现这一点，我们设计了一个特征分离和重组（FSR）模块，分解成阴影相关和背景相关的组件，通过提供专门的监督，每个组件，同时保持信息的完整性，避免冗余的重建约束。此外，我们提出了一个阴影风格滤波器（SSF）模块，以引导特征解纠缠的重点的风格区分和均匀化。通过这两个模块和我们的整体流水线，我们的模型有效地将背景颜色的不利影响降至最低，在三个公共数据集上产生卓越的性能，实时推理速度为32 FPS。

1.16 Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection

基于点感知交互和CNN细化网络的RGB-D显著目标检测

https://arxiv.org/abs/2308.08930

通过结合RGB图像和深度图的互补信息，可以提高显着目标检测（SOD）的能力，复杂和挑战性的场景。近年来，卷积神经网络（CNN）在特征提取和跨模态交互中的重要作用得到了充分的探索，但它在建模全局的自模态和跨模态的长程依赖性方面还不够。为此，我们介绍了CNN辅助的Transformer架构，并提出了一个新的RGB-D SOD网络与点感知交互和CNN诱导的细化（PICR-Net）。一方面，考虑到RGB模态和深度模态之间的先验相关性，设计了注意触发的跨模态点感知交互（CmPI）模块，以探索具有位置约束的不同模态的特征交互。另一方面，为了减轻Transformer自然带来的块效应和细节破坏问题，我们设计了一个CNN诱导细化（CNNR）单元进行内容细化和补充。在5个RGB-D SOD数据集上的大量实验表明，所提出的网络在定量和定性比较方面实现了竞争力的结果。

1.17 Frequency Perception Network for Camouflaged Object Detection

用于伪装目标检测的频率感知网络

https://arxiv.org/abs/2308.08924

伪装物体检测（COD）的目的是准确地检测隐藏在周围环境中的物体。然而，现有的COD方法主要是在RGB域定位伪装目标，其性能尚未充分发挥在许多具有挑战性的场景。考虑到伪装对象和背景的特征在频域中更具区分性，我们提出了一种新的可学习和可分离的频率感知机制，驱动的语义层次在频域。我们的整个网络采用了一个两阶段的模型，包括频率引导的粗定位阶段和细节保持的精细定位阶段。利用骨干网提取的多层次特征，设计了一种灵活的基于倍频程卷积的频率感知模块，用于粗定位。然后，设计修正融合模块，通过先验引导修正和跨层特征通道关联，逐步整合高层特征，最后与浅层特征相结合，实现对伪装目标的详细修正。与目前现有的模型相比，我们提出的方法实现了竞争力的性能，在三个流行的基准数据集定性和定量。

1.18 Recursive Detection and Analysis of Nanoparticles in Scanning Electron Microscopy Images

扫描电子显微镜图像中纳米颗粒的递归检测与分析

https://arxiv.org/abs/2308.08732

在这项研究中，我们提出了一个计算框架，专门用于精确检测和全面分析扫描电子显微镜（SEM）图像内的纳米粒子。该框架的主要目标围绕纳米颗粒坐标的准确定位，伴随着次要目标，包括提取相关的形态属性，包括面积，方向，亮度和长度。该框架利用Python强大的图像处理功能构建，特别是利用OpenCV、SciPy和Scikit-Image等库，采用了多种技术，包括阈值处理、扩张和侵蚀，以增强图像处理结果的保真度。随后的纳米粒子数据被无缝集成到RStudio环境中，以促进细致的后处理分析。这包括模型准确性的综合评价，特征分布模式的识别，以及复杂颗粒排列的识别。最终的框架在主要样品图像内表现出高的纳米颗粒识别，并且在从SEM纳米颗粒数据集绘制的五个不同的测试图像中检测颗粒时具有97%的准确度。此外，该框架展示了辨别微弱强度的纳米颗粒的能力，从而避免了对照组内的手动标记。