【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（12 月 1 日论文合集）

最新推荐文章于 2025-01-10 14:48:37 发布

旅途中的宽~

最新推荐文章于 2025-01-10 14:48:37 发布

阅读量1.2k

点赞数 19

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉目标检测人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/134748643

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、检测相关(12篇)

一、检测相关(12篇)

1.1 Cascaded Interaction with Eroded Deep Supervision for Salient Object Detection

基于腐蚀深度监督的级联交互显著目标检测

https://arxiv.org/abs/2311.18675

深度卷积神经网络在显着目标检测中得到了广泛的应用，并在该领域取得了显着的成果。然而，现有模型在上采样和下采样期间存在插值导致的信息失真。针对这个缺点，本文从网络中的两个方向入手：特征和标签。一方面，设计了一种新颖的级联交互网络，其带有名为全局局部对齐注意力（GAA）的引导模块，旨在减少插值对特征方面的负面影响。另一方面，提出了基于边缘侵蚀的深度监督策略，以减少标签插值对横向输出的负面指导。对五个流行数据集的广泛实验证明了我们方法的优越性。

1.2 Revisiting Proposal-based Object Detection

重访基于提案的目标检测

https://arxiv.org/abs/2311.18512

本文重新审视了通过提案检测图像中的对象的流程。对于任何对象检测器，需要对获得的框建议或查询进行分类并回归到地面真实框。最终预测的常见解决方案是直接最大化每个提案与真实框之间的重叠，然后进行赢者通吃的排名或非极大值抑制。在这项工作中，我们提出了一种简单而有效的替代方案。对于提案回归，我们解决了一个更简单的问题，即回归到提案与真实值之间的交叉区域。这样，每个提案仅指定哪个部分包含对象，避免了提案需要回归到其视觉范围之外的盲目修复问题。反过来，我们取代赢者通吃的策略，并通过对围绕对象的提案组的回归交集进行并集来获得最终预测。我们重新审视的方法对检测管道进行了最小的改变，并且可以插入到任何现有的方法中。我们表明，我们的方法直接改进了规范对象检测和实例分割架构，突出了基于交集的回归和分组的实用性。

1.3 TIDE: Test Time Few Shot Object Detection

浪潮：测试时间：Few-Shot目标检测

https://arxiv.org/abs/2311.18358

小样本对象检测（FSOD）旨在从目标域内新类别的有限对象实例中提取语义知识。 FSOD 的最新进展侧重于通过元学习或数据增强基于一些对象微调基本模型。尽管取得了成功，但它们中的大多数都是以参数重新调整为基础来推广新颖的对象，这在工业 5.0 中面临着相当大的挑战，例如（i）需要一定的微调时间，以及（ii）由于权限保护，构建的模型不可用，导致微调失败。这样的限制自然限制了其在有实时配置需求的场景或黑盒设置中的应用。为了解决上述挑战，我们形式化了一个新颖的 FSOD 任务，称为测试时间少样本检测（TIDE），其中模型在配置过程中未调整。为此，我们引入了一种非对称架构来学习支持实例引导的动态类别分类器。此外，还提供了交叉注意模块和多尺度缩放器来增强模型性能。在多个少样本目标检测平台上的实验结果表明，所提出的 TIDE 显着优于现有的当代方法。实现代码可在此 https URL 获取

1.4 DSeg: Direct Line Segments Detection

DSEG：直接线段检测

https://arxiv.org/abs/2311.18344

本文提出了一种模型驱动的方法来检测图像线段。该方法使用线性卡尔曼滤波器逐步检测梯度图像上的片段，该滤波器估计支持线参数及其相关方差。该算法对于图像噪声和照明变化而言快速且稳健，它允许检测比数据驱动方法更长的线段，并且不需要任何繁琐的参数调整。提出了算法的扩展，利用金字塔方法来提高结果的质量。给出了不同场景照明的结果以及与经典现有方法的比较。

1.5 Multilevel Saliency-Guided Self-Supervised Learning for Image Anomaly Detection

用于图像异常检测的多层显著引导自监督学习

https://arxiv.org/abs/2311.18332

异常检测（AD）是计算机视觉中的一项基本任务。它的目的是识别偏离正常图像数据模式的不正确图像数据模式。传统方法通常通过准备增强负样本来加强自我监督学习来解决AD。然而，这些技术通常在增强过程中不考虑语义，导致生成不切实际或无效的负样本。因此，特征提取网络可能无法嵌入关键特征。在这项研究中，受视觉注意力学习方法的启发，我们提出了 CutSwap，它利用显着性指导来合并语义线索以进行增强。具体来说，我们首先使用LayerCAM提取多级图像特征作为显着图，然后进行聚类以获得多个质心。为了充分利用显着性指导，在每个地图上，我们从具有最高质心显着性的簇中选择一个像素对来形成补丁对。这样的补丁对包括具有密集语义相关性的高度相似的上下文信息。通过交换补丁对的位置来创建生成的负样本。与之前的增强方法相比，CutSwap 生成更微妙但更真实的负样本，以促进质量特征学习。广泛的实验和烧蚀评估表明，我们的方法在两个主流 AD 基准数据集上实现了最先进的 AD 性能。

1.6 MCI Detection using fMRI time series embeddings of Recurrence plots

基于递归图的fMRI时间序列嵌入的MCI检测

https://arxiv.org/abs/2311.18265

人脑可以被概念化为一个动态系统。利用静息态 fMRI 时间序列成像，我们可以研究指定感兴趣区域 (ROI) 的潜在动态，以了解结构或缺乏结构。这种差异行为可能是理解神经退行性变以及对健康和轻度认知障碍（MCI）受试者进行分类的关键。在本研究中，我们考虑了 6 个大脑网络，涵盖源自 Dosenbach 模板的 160 多个 ROI，其中每个网络由 25-30 个 ROI 组成。采用了广泛用于理解时间序列演变的递归图。每个 ROI 的代表性时间序列被转换为其相应的循环图可视化，随后通过自动编码器将其压缩为低维特征嵌入。该方法的性能在 100 名受试者的功能磁共振成像体积（平衡数据）上显示，这些数据取自公开的 ADNI 数据集。获得的结果显示 6 个大脑网络的峰值分类准确度为 93%，平均准确度为 89.3%，从而说明了所提出的方法的前景。

1.7 FS-BAND: A Frequency-Sensitive Banding Detector

FS-BAND：一种频敏带状探测器

https://arxiv.org/abs/2311.18216

带状伪影，又称阶梯状轮廓，是压缩、传输等场景中常见的质量问题，很大程度上影响用户的体验质量（QoE）。带状失真通常表现为平滑背景中相对较小的像素变化，这很难在空间域中分析，但很容易在频域中反映出来。因此，在本文中，我们从频率方面研究带状伪影，并提出一种无参考带状伪影捕获和评估带状伪影的模型，称为频率敏感带状检测器（FS-BAND）。所提出的检测器能够生成具有感知相关质量得分的像素级带状图。实验结果表明，所提出的 FS-BAND 方法在条带分类任务中优于最先进的图像质量评估（IQA）方法，具有更高的准确性。

1.8 Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features

Back to 3D：基于反投影2D特征的Few-Shot3D关键点检测

https://arxiv.org/abs/2311.18113

近年来，随着数据集大小和计算资源的巨大增长，所谓的基础模型在 NLP 和视觉任务中变得流行。在这项工作中，我们建议探索 3D 形状关键点检测任务的基础模型。关键点检测的一个独特特点是它需要语义和几何感知，同时要求较高的定位精度。为了解决这个问题，我们建议首先将大型预训练 2D 视觉模型的特征反投影到 3D 形状上，并将它们用于此任务。我们表明，我们获得了包含丰富语义信息的鲁棒 3D 特征，并分析了来自不同 2D 基础模型的多个候选特征。其次，我们采用关键点候选优化模块，其目的是匹配形状上关键点的平均观察分布，并由反投影特征引导。由此产生的方法在 KeyPointNet 数据集上实现了少镜头关键点检测的新技术水平，几乎是以前最佳方法的性能的两倍。

1.9 AutArch: An AI-assisted workflow for object detection and automated recording in archaeological catalogues

Autarch：一种人工智能辅助的考古目录对象检测和自动记录工作流

https://arxiv.org/abs/2311.17978

从已发布的资源（例如考古发现目录）编译大型数据集提出了根本性的挑战：识别相关内容并手动记录它是一项耗时、重复且容易出错的任务。为了使数据有用，它必须具有可比较的质量并遵守相同的记录标准，而这在考古学中很少见。在这里，我们提出了一种利用人工智能最新进展的新数据收集方法。我们的软件使用对象检测神经网络与进一步的分类网络相结合，以加速、自动化和标准化来自遗留资源的数据收集，例如大型未排序 PDF 文件中的考古图画和照片。人工智能辅助工作流程可检测考古目录中发现的常见对象，例如坟墓、骨骼、陶瓷、装饰品、石器和地图，并在页面上对这些对象进行空间关联和分析，以提取现实生活中的属性，例如尺寸和尺寸等。根据指北针和比例尺确定坟墓的方向。图形界面允许并协助手动验证。我们通过从插图丰富的考古目录中收集一系列形状和数字属性来展示这种方法的好处，并在十个用户的现实世界实验中对其进行基准测试。此外，我们通过轮廓检测记录几何整体轮廓，这是手动无法实现的基于地标的几何形态测量的替代方法。

1.10 Rethinking Image Editing Detection in the Era of Generative AI Revolution

生成性人工智能革命时代图像编辑检测的再思考

https://arxiv.org/abs/2311.17953

生成人工智能的加速发展显着增强了生成区域编辑方法的可行性和有效性。这种演变使得图像处理变得更容易，从而增加了改变原始图像中所传达的信息甚至传播错误信息的风险。因此，对检测编辑图像的鲁棒能力存在着迫切的需求。然而，缺乏包含用丰富且先进的生成区域编辑方法编辑的图像的综合数据集，这对相应检测方法的进步构成了重大障碍。
我们努力通过构建GRE数据集来填补这一空缺，GRE数据集是一个大规模的生成区域编辑数据集，具有以下优点：1）真实世界原始图像的收集，重点关注两个经常编辑的场景。 2）集成逻辑和模拟编辑管道，利用各种模式的多个大型模型。 3）包含具有不同架构的各种编辑方法。 4）提供综合分析任务。我们对提出的三个任务进行了全面的实验：编辑图像分类、编辑方法归因和编辑区域定位，提供了不同编辑方法的分析和相关领域检测方法的评估。我们期望GRE数据集能够促进生成区域编辑检测领域的进一步研究和探索。

1.11 Utilizing Radiomic Feature Analysis For Automated MRI Keypoint Detection: Enhancing Graph Applications

利用放射学特征分析自动检测MRI关键点：增强图形应用

https://arxiv.org/abs/2311.18281

图神经网络 (GNN) 由于其在建模空间关系方面的参数效率，在某些图像处理应用中成为 CNN 和 Transformer 的有前途的替代方案。目前，一个主要的研究领域涉及将非图输入数据转换为基于 GNN 的模型，特别是在数据源自图像的场景中。一种方法涉及通过识别图像中的重要关键点将图像转换为节点。超级视网膜是一种半监督技术，已用于检测视网膜图像中的关键点。然而，它的局限性在于依赖于一小部分初始的地面实况关键点，并逐渐扩展以检测更多关键点。在使用 SIFT 和 LoFTR 检测大脑图像中一致的初始关键点时遇到困难，我们提出了一种新方法：基于放射组学特征的关键点检测。通过展示检测到的关键点在改进由这些关键点指导的配准过程方面的功效，证明了检测到的关键点的解剖学意义。随后，这些关键点被用作关键点检测方法（LK-SuperRetina）的基本事实。此外，该研究展示了 GNN 在图像匹配中的应用，强调了它们在良好匹配数量和置信度得分方面的优越性能。这项研究为将 GNN 应用扩展到各种其他应用奠定了基础，包括但不限于图像分类、分割和配准。

1.12 Automatic Detection of Alzheimer’s Disease with Multi-Modal Fusion of Clinical MRI Scans

临床MRI扫描的多模式融合自动检测阿尔茨海默病

https://arxiv.org/abs/2311.18245

美国人口老龄化加剧了阿尔茨海默病的流行。布鲁克迈耶等人。预测到 2060 年，大约有 1500 万美国人将患有临床 AD 或轻度认知障碍。为了响应这一紧急呼吁，人们开发了早期检测阿尔茨海默病的方法，以进行预防和预处理。值得注意的是，关于深度学习在疾病自动检测中的应用的文献一直在激增。这项研究建立在以前的文献的基础上，并重点关注利用多模态信息来增强自动检测。我们的目标是根据两种不同类型的脑部 MRI 扫描来预测疾病的阶段 - 认知正常 (CN)、轻度认知障碍 (MCI) 和阿尔茨海默病 (AD)。我们设计了一个基于 AlexNet 的深度学习模型，该模型可以从 T1 和 FLAIR MRI 扫描中学习互补信息的协同作用。