【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（7 月 18 日论文合集）

最新推荐文章于 2025-04-15 11:36:30 发布

旅途中的宽~

最新推荐文章于 2025-04-15 11:36:30 发布

阅读量822

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉目标检测人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/131806419

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、检测相关(19篇)

一、检测相关(19篇)

1.1 Implementation of a perception system for autonomous vehicles using a detection-segmentation network in SoC FPGA

基于SoC芯片的检测分割网络自主车辆感知系统的实现

https://arxiv.org/abs/2307.08682

在这里插入图片描述
用于自动驾驶车辆的感知和控制系统是科学和工业研究的活跃领域。这些解决方案的特点应该是在不同道路条件下识别障碍物和其他环境元素的高效率、实时能力和能源效率。实现这样的功能需要适当的算法和合适的计算平台。在本文中，我们使用了MultiTaskV3检测分割网络作为感知系统的基础，可以在一个单一的架构中执行这两个功能。它在AMD Xilinx Kria KV260 Vision AI嵌入式平台上进行了适当的训练，量化和实施。通过使用这种设备，可以并行化和加速计算。此外，与基于CPU的实现相比，整个系统消耗的功率相对较小（平均为5瓦，而较弱的CPU最低为55瓦），并且平台的小尺寸（119mm x 140mm x 36mm）允许其用于可用空间有限的设备中。它还实现了高于97%的mAP（平均平均精度）的目标检测和90%以上的mIoU（平均交集）的图像分割的准确性。文章还详细介绍了设计的麦克纳姆轮车辆，这是用来测试所提出的解决方案，在模拟城市。

1.2 Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active Learning

基于LiDAR引导的半监督主动学习单目三维目标检测

https://arxiv.org/abs/2307.08415

在这里插入图片描述
我们提出了一种新的半监督主动学习（SSAL）框架，用于单目3D物体检测与激光雷达指导（MonoLiG），它利用了模型开发过程中收集的数据的所有形式。我们利用激光雷达来指导单目3D探测器的数据选择和训练，而不会在推理阶段引入任何开销。在训练过程中，我们利用半监督学习的LiDAR教师，单目学生跨模态框架从未标记数据中提取信息作为伪标签。为了处理传感器特性的差异，我们提出了一种基于数据噪声的加权机制，以减少从激光雷达模态到单眼的传播噪声的影响。为了选择哪些样本标记，以提高模型的性能，我们提出了一个传感器一致性为基础的选择分数，也是一致的训练目标。KITTI和Waymo数据集上的大量实验结果验证了我们提出的框架的有效性。特别是，我们的选择策略始终优于最先进的主动学习基线，在标签成本方面节省了高达17%的成本。我们的训练策略通过将BEV平均精度（AP）提高2.02，在KITTI 3D和鸟瞰图（BEV）单目物体检测官方基准测试中获得了最高排名。

1.3 Active Learning for Object Detection with Non-Redundant Informative Sampling

无冗余信息采样的主动学习目标检测算法

https://arxiv.org/abs/2307.08414

在这里插入图片描述

策划一个信息丰富的和有代表性的数据集是必不可少的，以提高2D对象检测器的性能。我们提出了一种新的主动学习抽样策略，解决了信息量和多样性的选择。我们的策略集成了不确定性和多样性为基础的选择原则到一个联合选择目标，通过测量所选样本的集体信息得分。具体来说，我们提出的NORIS算法量化了训练样本对其他类似样本的信息量的影响。通过专门选择同时提供信息且远离其他高信息样本的样本，我们有效地避免了冗余，同时保持了高水平的信息量。此外，不是利用整个图像特征来计算样本之间的距离，而是利用从图像内检测到的对象区域提取的特征来定义对象特征。这使我们能够构建一个包含不同对象类型，形状和角度的数据集。对目标检测和图像分类任务的广泛实验证明了我们的策略在最先进的基线上的有效性。具体而言，我们的选择策略实现了20%和30%的标签成本降低相比，随机选择PASCAL-VOC和KITTI，分别。

1.4 Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection

Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection

https://arxiv.org/abs/2307.08339

在这里插入图片描述
准确而强大的物体检测对于自动驾驶至关重要。基于图像的探测器面临着恶劣天气条件下能见度低带来的困难。因此，雷达相机融合特别令人感兴趣，但在最佳融合异构数据源方面提出了挑战。为了解决这个问题，我们提出了两种新的雷达预处理技术，以更好地对齐雷达和摄像机数据。此外，我们引入了用于目标检测的多任务跨模态注意力融合网络（MCAF-Net），其中包括两个新的融合块。这些允许更全面地利用特征图中的信息。该算法联合检测对象并分割自由空间，引导模型关注场景中更相关的部分，即占用空间。我们的方法优于 nuScenes 数据集中当前最先进的基于雷达相机融合的目标检测器，并在恶劣的天气条件和夜间场景中取得了更稳健的结果。

1.5 AltFreezing for More General Video Face Forgery Detection

AltFreeting用于更通用的视频人脸伪造检测

https://arxiv.org/abs/2307.08317

在这里插入图片描述
现有的人脸伪造检测模型试图通过仅检测空间伪影（例如，生成伪影、混合）或主要检测时间伪影（例如，闪烁、不连续性）来区分假图像。当面对域外工件时，他们可能会经历显着的性能下降。在本文中，我们建议在一个模型中捕获空间和时间伪影以进行人脸伪造检测。一个简单的想法是利用时空模型（3D ConvNet）。然而，我们发现它可能很容易依赖一种类型的工件而忽略另一种类型。为了解决这个问题，我们提出了一种名为 AltFreezing 的新颖训练策略，用于更通用的人脸伪造检测。 AltFreezing 旨在鼓励模型检测空间和时间伪影。它将时空网络的权重分为两组：空间相关的和时间相关的。然后在训练过程中交替冻结两组权重，以便模型能够学习空间和时间特征来区分真假视频。此外，我们引入了各种视频级数据增强方法来提高伪造检测模型的泛化能力。大量的实验表明，我们的框架在对未见过的操作和数据集的泛化方面优于现有方法。代码可在 https://github.com/ZhendongWang6/AltFreezing 获取。

1.6 Large-Scale Person Detection and Localization using Overhead Fisheye Cameras

基于头顶鱼眼摄像机的大范围人员检测与定位

https://arxiv.org/abs/2307.08252

在这里插入图片描述
位置确定在日常生活中有着广泛的应用。在本文中，我们不再专注于定位透视相机拍摄的旅游照片，而是专注于使用头顶鱼眼相机设计人员定位解决方案。此类解决方案具有大视场（FOV）、低成本、抗遮挡和不激进的工作模式（无需人员携带相机）的优势。然而，由于数据缺乏，相关研究相当缺乏。为了促进这一令人兴奋的领域的研究，我们推出了 LOAF，这是第一个用于人员检测和定位的大规模头顶鱼眼数据集。 LOAF 具有许多基本特征，例如，i）数据涵盖场景、人体姿势、密度和位置的丰富多样性； ii) 它包含目前数量最多的带注释行人，即 457K 个带有真实位置信息的边界框； iii) 主体框被标记为半径对齐，以完全解决定位挑战。为了实现定位，我们构建了一个鱼眼人物检测网络，该网络通过旋转等变训练策略利用鱼眼扭曲，并端到端预测半径对齐的人体框。然后，通过鱼眼模型的数值解和相机高度数据来计算被检测人员的实际位置。 LOAF 上的大量实验验证了我们的鱼眼探测器的优越性。并表明我们的整个鱼眼定位解决方案能够在 0.1 秒内以 0.5 m 的精度定位 FOV 中的所有人。

1.7 ROFusion: Efficient Object Detection using Hybrid Point-wise Radar-Optical Fusion

ROFusion：基于混合点式雷达-光学融合的高效目标检测

https://arxiv.org/abs/2307.08233

在这里插入图片描述
雷达由于其对恶劣天气条件的鲁棒性和测量物体运动的能力，多年来一直用于自动驾驶和智能代理。然而，基于雷达的感知存在感知数据不直观，缺乏场景的语义和结构信息等缺点。为了解决这个问题，相机和雷达传感器融合已被研究作为一种趋势的策略，具有低成本，高可靠性和强维护性。虽然最近的作品探索如何探索雷达点云和图像，丰富的上下文信息雷达观测被丢弃。在本文中，我们提出了一种混合逐点雷达光学融合方法，用于自动驾驶场景中的目标检测。该框架受益于密集的上下文信息，从距离多普勒频谱和图像的集成学习多模态特征表示。此外，我们提出了一种新的本地坐标制定，解决对象检测任务中的对象为中心的坐标。大量的结果表明，从光学图像中获得的信息，我们可以实现领先的性能在对象检测（97.69%召回）相比，最近的国家的最先进的方法FFT-RadNet（82.86%召回）。烧蚀研究验证了关键的设计选择和实用性，我们的方法给定的机器产生的不完善的检测。该代码将在https://github.com/LiuLiu-55/ROFusion上提供。

1.8 Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection

Ada3D：利用空间冗余和自适应推理实现高效的三维目标检测

https://arxiv.org/abs/2307.08209

在这里插入图片描述
基于体素的方法已经在自动驾驶中的 3D 物体检测中实现了最先进的性能。然而，其巨大的计算和内存成本对其在资源受限的车辆上的应用提出了挑战。这种高资源消耗的原因之一是激光雷达点云中存在大量冗余背景点，导致 3D 体素和密集 BEV 地图表示中出现空间冗余。为了解决这个问题，我们提出了一种称为 Ada3D 的自适应推理框架，该框架专注于利用输入级空间冗余。 Ada3D 在轻量级重要性预测器和激光雷达点云的独特属性的指导下自适应过滤冗余输入。此外，我们通过引入稀疏性保持批量归一化来利用 BEV 特征的固有稀疏性。借助 Ada3D，我们在不牺牲准确性的情况下，将 3D 体素减少了 40%，并将 2D BEV 特征图的密度从 100% 降低到 20%。 Ada3D 将模型计算和内存成本降低了 5 倍，并分别为 3D 和 2D 主干网实现了 1.52 倍/1.45 倍的端到端 GPU 延迟和 1.5 倍/4.5 倍的 GPU 峰值内存优化。

1.9 Diffusion to Confusion: Naturalistic Adversarial Patch Generation Based on Diffusion Model for Object Detector

扩散到混乱：基于扩散模型的目标检测器自然主义对抗性补丁生成

https://arxiv.org/abs/2307.08076

在这里插入图片描述
许多物理对抗性补丁生成方法被广泛提出，以保护个人隐私免受使用对象检测器的恶意监控。然而，如果不付出巨大的努力来仔细调整超参数，他们通常无法在隐秘性和攻击性能方面生成令人满意的补丁图像。为了解决这个问题，我们提出了一种基于扩散模型（DM）的新型自然对抗性补丁生成方法。通过从基于自然图像预训练的 DM 模型中采样最佳图像，它使我们能够稳定地为人类制作高质量和自然的物理对抗补丁，而不会像其他深度生成模型那样遭受严重的模式崩溃问题。据我们所知，我们是第一个为目标检测器提出基于 DM 的自然对抗性补丁生成的人。通过广泛的定量、定性和主观实验，结果证明了所提出的方法可以有效地生成质量更好、更自然的对抗性补丁，同时比其他最先进的补丁生成方法实现可接受的攻击性能。我们还展示了不同条件下的各种发电权衡。

1.10 LafitE: Latent Diffusion Model with Feature Editing for Unsupervised Multi-class Anomaly Detection

Lafite：基于特征编辑的潜在扩散模型无监督多类异常检测

https://arxiv.org/abs/2307.08059

在这里插入图片描述
在需要以最少的重新配置生产不同类型和数量的产品的柔性制造系统的背景下，本文解决了无监督多类异常检测的问题：开发一个统一的模型来检测属于多个类的对象的异常，当仅可以访问正常数据。我们首先探索基于生成的方法，并研究用于重建的潜在扩散模型，以减轻基于自动编码器的方法中臭名昭著的“身份捷径”问题。然后，我们引入一种特征编辑策略，修改扩散模型的输入特征空间，以进一步减轻“身份捷径”，同时提高正常区域的重建质量，从而减少误报预测。此外，我们是第一个提出无监督异常检测中的超参数选择问题的人，并提出了一种为伪验证集合成异常数据的解决方案来解决该问题。对基准数据集 MVTec-AD 和 MPDD 的大量实验表明，所提出的 LafitE（即具有特征编辑的潜在扩散模型）在平均 AUROC 方面明显优于最先进的方法。通过我们的伪验证集选择的超参数与真实测试集非常匹配。

1.11 Analysing Gender Bias in Text-to-Image Models using Object Detection

利用目标检测分析文本到图像模型中的性别偏见

https://arxiv.org/abs/2307.08025

在这里插入图片描述
这项工作提出了一种测量文本到图像模型偏差的新颖策略。使用指定性别和模糊引用对象的配对提示（例如“拿着物品的男人/女人”），我们可以检查某些对象是否与特定性别相关联。在分析稳定扩散的结果时，我们观察到男性提示更频繁地产生领带、刀、卡车、棒球棒和自行车等物体。另一方面，女性提示更有可能产生手提包、雨伞、碗、瓶子和杯子等物品。我们希望这里概述的方法将成为检查文本到图像模型中偏差的有用工具。

1.12 Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling

基于可靠、多样化和类平衡的自适应三维目标检测

https://arxiv.org/abs/2307.07944

在这里插入图片描述
借助伪标记技术的无监督域适应 (DA) 已成为域自适应 3D 对象检测的重要方法。虽然有效，但现有的 DA 方法在应用于多类训练环境时，由于低质量伪标签和类不平衡问题的共存，性能大幅下降。在本文中，我们通过提出一种新颖的 ReDB 框架来应对这一挑战，该框架专为学习同时检测所有类而定制。我们的方法产生可靠、多样化和类平衡的伪 3D 框，以迭代地指导分布不同的目标域上的自我训练。为了减轻环境差异（例如光束数）造成的干扰，提出的跨域检查（CDE）通过将目标实例复制粘贴到源环境中并测量预测一致性来评估伪标签的正确性。为了减少计算开销并减轻对象移位（例如尺度和点密度），我们设计了一种重叠框计数（OBC）度量，该度量允许对不同几何特征的伪标记对象进行统一下采样。为了解决类间不平衡的问题，我们使用一组类平衡的伪标记目标实例和源对象逐步增强目标点云，这提高了频繁出现的类和稀有类的识别精度。使用基于体素（即 SECOND）和基于点的 3D 检测器（即 PointRCNN）在三个基准数据集上的实验结果表明，我们提出的 ReDB 方法大大优于现有的 3D 域自适应方法，在 nuScenes → KITTI 任务。

1.13 KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection

KECOR：基于核编码率最大化的主动3D目标检测

https://arxiv.org/abs/2307.07942

在这里插入图片描述
在自动驾驶中实现可靠的基于 LiDAR 的物体检测器至关重要，但其成功取决于获得大量精确的 3D 注释。主动学习（AL）试图通过使用更少标签的算法来减轻注释负担，并且可以获得与完全监督学习相当的性能。尽管 AL 已显示出希望，但当前的方法优先考虑具有高度不确定性和/或多样性的未标记点云的选择，导致选择更多实例进行标记并降低计算效率。在本文中，我们采用一种新颖的内核编码率最大化（KECOR）策略，旨在通过信息论的视角识别信息量最大的点云来获取标签。贪婪搜索用于寻找所需的点云，可以最大化编码潜在特征所需的最小位数。为了从模型角度确定所选样本的唯一性和信息量，我们构建了 3D 探测器头的代理网络，并计算所有代理层的雅可比行列式的外积，以形成经验神经正切核（NTK）矩阵。为了适应单级（即 SECOND）和两级检测器（即 PVRCNN），我们进一步结合了分类熵最大化以及检测性能和选择用于注释的边界框总数之间的良好权衡。在两个 3D 基准和 2D 检测数据集上进行的大量实验证明了所提出方法的优越性和多功能性。我们的结果表明，与最先进的 AL 方法相比，大约减少了 44% 的框级注释成本和 26% 的计算时间，并且不影响检测性能。

1.14 Anomaly Detection in Automated Fibre Placement: Learning with Data Limitations

自动纤维铺放中的异常检测：数据限制下的学习

https://arxiv.org/abs/2307.07893

在这里插入图片描述
目前的自动纤维铺放（AFP）缺陷检测系统大多基于端到端的监督学习方法，需要大量标记的缺陷样本，而这些样本不容易生成足够数量的样本。为了解决这个数据稀缺问题，我们引入了一种与小数据集兼容的基于自动编码器的方法。幸运的是，从基础角度来看，问题可以简化为正常样本和异常样本之间的二元分类。所提出的方法使用纤维铺层表面的深度图，将其分成与每个复合带（丝束）对齐的小窗口。这些窗口中不包含异常的子集被传递到自动编码器以重建输入。由于自动编码器是使用正常样本进行训练的，因此它可以为这些样本生成比异常样本更准确的重建。因此，重建误差的值被用作是否存在潜在异常的定量指标。这些值组合起来生成异常图，该异常图可以定位深度图中的制造缺陷。结果表明，尽管自动编码器的扫描次数非常有限，但所提出的方法可以产生足够的二元分类精度并指定缺陷的位置。

1.15 Multitemporal SAR images change detection and visualization using RABASAR and simplified GLR

基于RABASAR和简化GLR的多时相SAR图像变化检测与可视化

https://arxiv.org/abs/2307.07892

在这里插入图片描述
要了解已更改区域的状态，需要给出有关更改的精确信息。因此，检测不同种类的变化是重要的陆面监测。合成孔径雷达传感器是完成这一任务的理想选择，因为它们具有全天候和全天候的能力，具有良好的采集几何精度，并且不受大气成分对振幅数据的影响。在这项研究中，我们提出了一个简化的广义似然比（ $S_{GLR}$ ）的方法，假设相应的时间像素具有相同的等效看数（ENL）。由于去噪的数据提供的基于比率的多时相SAR图像去噪方法（RABASAR），我们成功地应用这种相似性测试方法来计算变化的地区。提出了一种新的变化强度指数方法和一种改进的基于光谱聚类的变化分类方法。此外，我们应用简化的广义似然比来检测最大变化幅度的时间，以及变化的开始和结束时间。然后，我们建议使用适应的反应方法来可视化的检测结果生动。通过对仿真图像和SAR图像的处理，以及与经典方法的比较，验证了所提方法的有效性。特别是，数值实验证明，所开发的方法具有良好的性能检测农田面积的变化，建筑面积的变化，港口面积的变化和洪水面积的变化。

1.16 A Survey on Change Detection Techniques in Document Images

文档图像变化检测技术综述

https://arxiv.org/abs/2307.07691

在这里插入图片描述
图像中的变化检测问题在不同的领域中得到应用，如医学领域中的疾病诊断、通过遥感检测城市的增长模式以及发现法律文件和合同中的变化。然而，本文提出了一个调查的核心技术和规则，以检测不同版本的文档图像的变化。我们对变化检测的讨论集中在两个类别-基于内容和基于布局。基于内容的技术智能地提取和分析图像内容（文本或非文本）以显示可能的差异，而基于布局的技术使用结构信息来预测文档变化。我们还总结了现有的数据集和评估指标中使用的变化检测实验。现有的方法所面临的缺点和挑战的报告，以及未来的研究工作的一些指针。

1.17 Voting-based Multimodal Automatic Deception Detection

基于投票的多通道自动欺骗检测

https://arxiv.org/abs/2307.07516

在这里插入图片描述
自动欺骗检测一直是一个热门的研究课题，使用机器学习和深度学习来自动检测欺骗，为这个古老的领域带来了新的曙光。在本文中，我们提出了一种基于投票的方法，自动欺骗检测视频使用音频，视觉和词汇特征。实验在两个数据集上进行，密歇根大学的真实生活试验数据集和迈阿密大学欺骗检测数据集。视频样本被分成图像帧、音频帧和手稿帧。我们提出的基于投票的多模态解决方案由三个模型组成。第一个模型是用于检测图像欺骗的CNN，第二个模型是用于检测音频欺骗的Mel频谱图上的支持向量机（SVM），第三个模型是用于检测手稿欺骗的支持向量机（SVM）上的Word2Vec。我们提出的解决方案优于现有技术。图像、音频和文本的最佳结果分别为97%、96%、92%，迈阿密大学欺骗检测的视频、音频和文本分别为97%、82%、73%。

1.18 GastroVision: A Multi-class Endoscopy Image Dataset for Computer Aided Gastrointestinal Disease Detection

胃镜：用于计算机辅助胃肠道疾病检测的多类内窥镜图像数据集

https://arxiv.org/abs/2307.08140

在这里插入图片描述
在临床实践中集成实时人工智能（AI）系统面临着可扩展性和可接受性等挑战。这些挑战包括数据可用性，有偏见的结果，数据质量，缺乏透明度，以及来自不同分布的看不见的数据集表现不佳。缺乏大规模、精确标记和多样化的数据集是临床整合的主要挑战。这种稀缺性也是由于法律限制和临床医生准确注释所需的大量人工努力。为了解决这些挑战，我们提出了GastroVision，一个多中心开放式胃肠道（GI）内窥镜数据集，包括不同的解剖标志，病理异常，息肉切除病例和正常结果（共24类）从胃肠道。该数据集包括从挪威B{\ae}rum医院和瑞典卡罗林斯卡大学获得的8，000张图像，并由经验丰富的GI内窥镜医师进行注释和验证。此外，我们通过基于流行的基于深度学习的基线模型的广泛基准测试来验证我们数据集的重要性。我们相信我们的数据集可以促进基于AI的GI疾病检测和分类算法的开发。我们的数据集可在https://osf.io/84e7f/上获得。

1.19 Masked Autoencoders for Unsupervised Anomaly Detection in Medical Images

用于医学图像非监督异常检测的屏蔽式自动编码器

https://arxiv.org/abs/2307.07534

在这里插入图片描述
病理异常在医学成像中表现出多种多样的表现，使得在监督环境中训练深度学习模型所需的代表性数据量难以收集和注释。因此，在这项工作中，我们仅使用健康样本来处理医学图像训练框架中的异常检测。我们建议使用掩模自动编码器模型来学习正常样本的结构，然后根据原始图像和掩模自动编码器提供的重建之间的差异训练异常分类器。我们使用健康扫描的重建作为负样本以监督方式训练异常分类器，而作为正样本，我们使用通过我们新颖的伪异常模块获得的伪异常扫描。伪异常模块通过改变几个区域的强度来改变正常样本的重建。我们在两个医学图像数据集（即 BRATS2020 和 LUNA16）上进行实验，并将我们的方法与四种最先进的异常检测框架（即 AST、RD4AD、AnoVAEGAN 和 f-AnoGAN）进行比较。