【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（11 月 27 日论文合集）

最新推荐文章于 2024-08-26 21:08:43 发布

旅途中的宽~

最新推荐文章于 2024-08-26 21:08:43 发布

阅读量1.1k

点赞数 16

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉目标检测人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/134682030

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 136 订阅

订阅专栏

文章目录

一、检测相关(18篇)

一、检测相关(18篇)

1.1 Machine Learning-Based Jamun Leaf Disease Detection: A Comprehensive Review

基于机器学习的柑橘叶部病害检测研究综述

https://arxiv.org/abs/2311.15741

Jamun叶病对农业生产力构成重大威胁，对Jamun产业的产量和质量产生负面影响。机器学习的出现为有效应对这些疾病开辟了新的途径。早期检测和诊断对于成功的作物管理至关重要。虽然还没有专门开发用于番茄叶病检测的自动化系统，但是已经使用图像处理技术实现了用于类似类型的疾病检测的各种自动化系统。本文提出了一个全面的审查机器学习方法用于诊断植物叶片疾病，通过图像分类，它可以适用于jamun叶病检测。它仔细评估了各种Vision Transformer模型的优势和局限性，包括迁移学习模型和Vision Transformer（TLMViT）、SLViT、SE-ViT、IterationViT、Tiny-LeViT、IEM-ViT、GreenViT和PMViT。此外，本文还回顾了诸如密集卷积网络（DenseNet）、残差神经网络（ResNet）-50V2、有效网络（EfficientNet）、包围模型、卷积神经网络（CNN）和局部可逆Transformer等模型。这些机器学习模型已经在各种数据集上进行了评估，证明了它们在现实世界中的适用性。该综述不仅揭示了该领域目前的进展，而且为基于机器学习的番茄叶病检测和分类的未来研究方向提供了有价值的见解。

1.2 Model-agnostic Body Part Relevance Assessment for Pedestrian Detection

用于行人检测的模型不可知人体部位相关性评估

https://arxiv.org/abs/2311.15679

深度学习模型的模型无关解释方法在可用性和可用性方面是灵活的。然而，由于它们只能操纵输入以查看输出中的变化，因此在与复杂的模型架构一起使用时，它们的性能较弱。对于具有大输入的模型，例如，在对象检测中，由于许多计算繁重的前向传递，基于采样的方法（如KernelSHAP）效率低下。在这项工作中，我们提出了一个框架，使用基于采样的解释模型在计算机视觉的背景下，通过身体部位的相关性评估行人检测。此外，我们还引入了一种类似于KernelSHAP的基于采样的新方法，该方法对较低的采样大小具有更强的鲁棒性，因此对于大规模数据集的可解释性分析更有效。

1.3 Technical Report for Argoverse Challenges on Unified Sensor-based Detection, Tracking, and Forecasting

ArgoVerse在基于统一传感器的检测、跟踪和预测方面的挑战技术报告

https://arxiv.org/abs/2311.15615

本报告介绍了我们的Le3DE2E解决方案，用于CVPR 2023自动驾驶研讨会（WAD）上的Argoverse挑战中基于传感器的统一检测，跟踪和预测。我们提出了一个统一的网络，它包含三个任务，包括检测，跟踪和预测。该解决方案采用了一个强大的鸟瞰图（BEV）编码器与空间和时间融合，并生成统一的表示多任务。该解决方案在Argoverse 2传感器数据集中进行了测试，以评估26种对象类别的检测，跟踪和预测。我们在CVPR 2023 WAD的Argoverse挑战赛中的E2E预测赛道上获得了检测，跟踪和预测的第一名。

1.4 EAFP-Med: An Efficient Adaptive Feature Processing Module Based on Prompts for Medical Image Detection

EAFP-MED：一种高效的基于提示的医学图像自适应特征处理模块

https://arxiv.org/abs/2311.15540

面对医学成像的快速发展，由于各种医学成像技术中病变表示的差异，跨域自适应医学图像检测具有挑战性。为了解决这个问题，我们从大型语言模型中汲取灵感，提出了EAFP-Med，一个高效的自适应特征处理模块，用于医学图像检测的提示。EAFP-Med可以根据提示从各种医学图像中有效提取不同尺度的病变特征，同时具有灵活性，不受特定成像技术的限制。此外，它作为一个特征预处理模块，可以连接到任何模型前端，以增强输入图像中的病变特征。此外，我们提出了一种新的自适应疾病检测模型EAFP-Med ST，它利用Swin Transformer V2 - Tiny（SwinV 2-T）作为其骨干，并将其连接到EAFP-Med。我们比较了我们的方法，9个国家的最先进的方法。实验结果表明，EAFP-Med ST在所有三个数据集（胸部X射线图像、颅脑磁共振成像图像和皮肤图像）上均实现了最佳性能。EAFP-Med可以根据提示从各种医学图像中有效地提取病变特征，提高模型的性能。这对于改善医学图像分析和诊断具有重要的潜力。

1.5 DISYRE: Diffusion-Inspired SYnthetic REstoration for Unsupervised Anomaly Detection

DISYRE：用于无监督异常检测的扩散启发合成反射

https://arxiv.org/abs/2311.15453

无监督异常检测（UAD）技术旨在识别和定位异常，而不依赖于注释，仅利用在已知没有异常的数据集上训练的模型。扩散模型学习修改输入 $x$ 以增加它属于期望分布的概率，即，它们对得分函数 $\nabla_x \log p（x）$ 进行建模。这样的评分函数可能与UAD相关，因为 $\nabla_x \log p（x）$ 本身是像素异常评分。然而，扩散模型被训练为基于高斯噪声反转腐败过程，并且学习的评分函数不太可能推广到医学异常。本文提出了一种基于UAD的分数函数学习方法，并提出了DISYRE：Diffusion-Inspired Synthetic RESIDENCE。我们保留了类似扩散的管道，但用渐进的合成异常损坏替换了高斯噪声损坏，因此学习的评分函数可以推广到医学上自然发生的异常。我们在三个常见的脑MRI UAD基准上评估了DISYRE，并且在三个任务中的两个任务中大大优于其他方法。

1.6 BatchNorm-based Weakly Supervised Video Anomaly Detection

基于BatchNorm的弱监督视频异常检测

https://arxiv.org/abs/2311.15367

在弱监督视频异常检测（WVAD）中，只有视频级别的标签指示异常事件的存在或不存在是可用的，主要的挑战来自于异常事件的时间注释中固有的模糊性。受异常事件的时间特征经常表现出离群值特征的统计洞察的启发，我们提出了一种新的方法，BN-WVAD，它将BatchNorm到WVAD。在所提出的BN-WVAD中，我们利用BatchNorm的特征与平均向量（DFM）的差异作为可靠的异常标准来识别异常视频中的潜在异常片段。所提出的DFM标准对于异常识别也是有区别的，并且对标签噪声更有弹性，作为附加的异常分数来修正对噪声标签敏感的异常分类器的预测。此外，设计了一种批量级的选择策略，以过滤视频中发生更多异常事件的更多异常片段。所提出的BN-WVAD模型在UCF-犯罪方面表现出最先进的性能，AUC为87.24%，XD-暴力，AP高达84.93%。我们的代码实现可以在https://github.com/cool-xuan/BN-WVAD上访问。

1.7 An Intelligent-Detection Network for Handwritten Mathematical Expression Recognition

一种用于手写数学公式识别的智能检测网络

https://arxiv.org/abs/2311.15273

人工智能技术在教育中的应用正在迅速增长，研究人员越来越关注手写数学表达式识别（HMER）。然而，HMER的许多现有方法可能无法准确地读取具有复杂结构的公式，因为注意力结果可能由于难以辨认的笔迹或书写风格的大变化而不准确。我们提出的智能检测网络（IDN）的HMER不同于传统的编码器-解码器的方法，利用对象检测技术。具体来说，我们已经开发了一个增强的YOLOv 7网络，可以准确地检测数字和符号对象。然后将检测结果集成到双向门控递归单元（BiGRU）和基线符号关系树（BSRT）中，以确定符号和数字之间的关系。实验结果表明，该方法在识别复杂手写体数学表达式方面优于传统的编码-解码网络。这是由于对符号和数字的精确检测。我们的研究有可能为HMER领域做出宝贵的贡献。这可以应用于各种实际场景，例如学校的作业评分和纸质文档的信息录入。

1.8 ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection

基于类ID的少射脱射检测快速学习算法

https://arxiv.org/abs/2311.15243

分布外（Out-of-distribution，OOD）检测方法通常利用辅助离群值来训练模型识别OOD样本，特别是从辅助离群值数据集中发现具有挑战性的离群值来提高OOD检测。然而，它们在有效区分最具挑战性的OOD样本方面仍然可能面临限制，这些样本非常类似于分布（ID）数据，即，类似身份的样本为此，我们提出了一种新的OOD检测框架，该框架使用CLIP从ID样本的邻近空间中发现ID样离群值，从而有助于识别这些最具挑战性的OOD样本。然后提出了一个快速学习框架，利用识别的ID样离群值，以进一步利用CLIP的能力，面向对象的检测。受益于强大的CLIP，我们只需要少量的ID样本就可以学习模型的提示，而不会暴露其他辅助离群数据集。通过专注于最具挑战性的ID类OOD样本并优雅地利用CLIP的功能，我们的方法在各种真实世界图像数据集上实现了卓越的Few-Shot学习性能（例如，在ImageNet-1 k数据集上的4次OOD检测中，与最先进的方法相比，我们的方法将平均FPR 95降低了12.16%，并将平均AUROC提高了2.76%。

1.9 Introducing SSBD+ Dataset with a Convolutional Pipeline for detecting Self-Stimulatory Behaviours in Children using raw videos

引入卷积管道的SSBD+数据集用于检测原始视频中的儿童自我刺激行为

https://arxiv.org/abs/2311.15072

传统上，自闭症谱系障碍的诊断评估是由受过训练的专家通过基于问卷的正式评估和通过观察各种环境下的行为线索来完成的，以捕捉自闭症的早期预警信号。这些评估技术是高度主观的，其准确性依赖于专家的经验。在这方面，基于机器学习的方法可以从儿童的录制视频中自动捕获自闭症的早期迹象，这是一种很有前途的选择。在本文中，作者提出了一种新型的流水线深度学习架构，用于检测某些有助于诊断自闭症谱系障碍（ASD）的自我刺激行为。作者还用自我刺激行为数据集（SSBD）的增强版本补充了他们的工具，并在SSBD动作检测中提出了一个新的标签：无类别。新数据集的深度学习模型免费提供，便于研究人员和开发人员社区采用。从所提出的管道模型中实现了约81%的总体准确度，该模型针对实时和免提自动诊断。所有的源代码、数据、使用许可证和其他相关材料都可以在https://github.com/sarl-iiitb/上免费获得。

1.10 VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning

VSCode：二维快速学习的通用视觉突显和伪装目标检测

https://arxiv.org/abs/2311.15011

显著对象检测（SOD）和隐藏对象检测（COD）是相关但不同的二进制映射任务。这些任务涉及多种形式，共享共性和独特的线索。现有的研究往往采用复杂的特定任务的专家模型，可能导致冗余和次优的结果。我们引入了VSCode，一个具有新颖的2D提示学习的通才模型，以共同解决四个SOD任务和三个COD任务。我们利用VST作为基础模型，并在编码器-解码器架构中引入2D提示，以在两个不同的维度上学习领域和任务特定的知识。迅速的区分损失有助于理清特性，以利于模型优化。VSCode在26个数据集上的6个任务上优于最先进的方法，并通过结合2D提示（如RGB-D COD）对看不见的任务进行zero-shot概括。

1.11 OpenNet: Incremental Learning for Autonomous Driving Object Detection with Balanced Loss

OpenNet：用于平衡损失的自动驾驶目标检测的增量学习

https://arxiv.org/abs/2311.14939

由于环境的不确定性，自动驾驶目标检测一直是计算机视觉中具有挑战性的任务。这些不确定性包括物体大小的显著差异和遇到看不见的类。当传统的目标检测模型直接应用于自动驾驶检测时，可能会导致性能不佳。因为它们通常假定固定类别的常见交通参与者，如行人和汽车。更糟糕的是，常见类和新类之间的巨大类不平衡进一步加剧了性能下降。为了解决上述问题，我们提出了OpenNet来缓和类的不平衡与平衡损失，这是基于交叉熵损失。此外，我们采用了一个基于梯度整形的归纳层，以快速学习新的类与有限的样本在增量学习。为了防止灾难性遗忘，我们采用归一化特征提取。另外，我们分别通过FPN和基于能量的检测来提高多尺度检测的鲁棒性和未知类识别率。在CODA数据集上的实验结果表明，该方法比现有方法具有更好的性能。

1.12 Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning Network

面向可扩展的三维异常检测和定位：基于三维异常合成和自监督学习网络的基准测试

https://arxiv.org/abs/2311.14897

近年来，三维异常检测作为一个涉及细粒度几何判别的关键问题，越来越受到人们的关注。然而，缺乏丰富的真实三维异常数据限制了现有模型的可扩展性。为了实现可扩展的异常数据收集，我们提出了一个3D异常合成管道，以适应现有的大规模3D模型的3D异常检测。具体来说，我们构建一个合成数据集，即，基于ShapeNet的Anomaly-ShapeNet。Anomaly-ShapeNet由40个类别下的1600个点云样本组成，提供了丰富多样的数据集合，可以实现高效的训练，增强对工业场景的适应性。同时，为了实现3D异常定位的可扩展表示学习，我们提出了一种自监督方法，即，迭代掩模重建网络（IMRNet）。在训练过程中，我们提出了一个几何感知的样本模块，以保留潜在的异常局部区域在点云下采样。然后，我们随机屏蔽出点补丁，并将可见补丁发送到一个Transformer进行基于重建的自我监督。在测试过程中，点云反复通过Mask Reconstruction Network，每次迭代的输出都成为下一个输入。通过合并和对比最终重建的点云与初始输入，我们的方法成功地定位异常。实验表明，IMRNet优于以前的最先进的方法，在Anomaly-ShapeNet数据集上的I-AUC达到66.1%，在Real 3D-AD数据集上的I-AUC达到72.5%。我们的数据集将在https://github.com/Chopper-233/Anomaly-ShapeNet上发布

1.13 A Reusable AI-Enabled Defect Detection System for Railway Using Ensembled CNN

基于集成CNN的可复用人工智能铁路缺陷检测系统

https://arxiv.org/abs/2311.14824

准确的缺陷检测对于确保智能铁路系统的可靠性至关重要。目前的方法依赖于单一的深度学习模型，如CNN，它使用大量数据来捕获底层模式。用有限的样本训练新的缺陷分类器通常会导致过拟合和对不可见图像的性能差。为了解决这个问题，研究人员提倡迁移学习和微调预先训练的模型。然而，在迁移学习中使用单个骨干网络仍然可能导致瓶颈问题和不一致的性能，如果它不适合特定的问题域。为了克服这些挑战，我们提出了一种可重用的AI缺陷检测方法。通过将集成学习与迁移学习模型（VGG-19、MobileNetV 3和ResNet-50）相结合，我们提高了分类准确率，并在某个训练阶段实现了一致的性能。我们的实证分析表明，与其他最先进的方法相比，更好，更一致的性能。一致性证实了新发展的缺陷轨道部件的缺陷检测系统的可重用性。因此，我们预计这些发现将有利于进一步研究和开发铁路系统的可重用AI解决方案。

1.14 READS-V: Real-time Automated Detection of Epileptic Seizures from Surveillance Videos via Skeleton-based Spatiotemporal ViG

READS-V：通过基于时空ViG的监控视频实时自动检测癫痫发作

https://arxiv.org/abs/2311.14775

一个准确、高效的癫痫发作检测系统可以显著地使患者受益。传统的诊断方法主要依赖于脑电图（EEG），通常导致笨重且非便携式的解决方案，使得连续的患者监测具有挑战性。基于视频的癫痫发作检测系统有望使患者摆脱头皮或植入式EEG设备的限制，并实现在住宅环境中的远程监控。以前的基于视频的方法既不能实现全天监测，也不能提供短的检测延迟，这是由于资源不足和无效的患者动作识别技术。此外，基于密码的动作识别方法在识别微妙的密码相关动作方面仍然存在局限性。为了解决这些挑战，我们提出了一种新的基于混沌的时空视觉图神经网络（STViG），用于从监控视频（READS-V）中有效，准确，及时地实时自动检测癫痫发作。我们的实验结果表明，STViG优于我们收集的患者的视频数据，具有更高的准确性（5.9%的错误）和更低的FLOP（0.4G）之前的国家的最先进的动作识别模型。此外，通过集成决策规则，结合输出概率和累积函数，我们的READS-V系统实现了5.1 s的EEG发作检测延迟，13.1 s的临床发作检测的进步，和零错误检测率。

1.15 Set Features for Anomaly Detection

为异常检测设置特征

https://arxiv.org/abs/2311.14773

本文提出了一套功能检测异常的样本，包括正常元素的不寻常的组合。许多领先的方法通过检测样本中不寻常的部分来发现异常。例如，现有技术的基于分割的方法首先对样本的每个元素进行分类（例如，图像块）为正常或异常，然后如果整个样本包含异常元素，则将其分类为异常。然而，这种方法不能很好地扩展到异常由正常元素的不寻常组合表示的情况。在本文中，我们克服了这一限制，提出了一套功能，模型每个样本的分布元素。我们使用一个简单的密度估计方法，使用固定的功能，计算每个样本的异常得分。该方法在图像级逻辑异常检测和序列级时间序列异常检测方面均优于以往的方法。

1.16 Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision

Point2RBox：结合合成视觉模式的知识进行端到端的目标检测和单点监控

https://arxiv.org/abs/2311.14758

随着面向对象检测（OOD）需求的快速增长，从水平盒（HBox）学习旋转盒（RBox）的弱监督检测器的研究越来越受到关注。在本文中，我们探索了一个更具挑战性但标签效率高的设置，即单点监督OOD，并提出了我们的方法称为Point 2 RBox。具体来说，我们提出利用两个原则：1）合成模式知识组合：通过在图像上的每个标记点周围进行采样，我们将对象特征转换为具有已知边界框的合成视觉模式，以提供用于框回归的知识。2)转变自我监督：通过变换的输入图像（例如缩放/旋转），输出RBox被训练为遵循相同的变换，以便网络可以感知对象之间的相对大小/旋转。通过一些设计的技术来进一步增强检测器，以应对外围问题，例如，锚/层分配，因为对象的大小在我们的点监督设置中不可用。据我们所知，Point 2 RBox是点监督OOD的第一个端到端解决方案。特别是，我们的方法使用了一个轻量级的范例，但它在点监督的替代方案中取得了有竞争力的性能，在DOTA/DIOR/HRSC数据集上分别为41.05%/27.62%/80.01%。

1.17 PointOBB: Learning Oriented Object Detection via Single Point Supervision

PointOBB：通过单点监督的面向学习的对象检测

https://arxiv.org/abs/2311.14757

单点监督目标检测由于其成本效益而受到关注。然而，现有的方法专注于生成水平边界框（HBB），而忽略了通常用于航空图像中的对象的定向边界框（OBB）。本文提出了PointOBB，第一个单点为基础的OBB生成方法，面向对象检测。PointOBB通过协作利用三种不同的视图来操作：原始视图、调整大小的视图和旋转/翻转（rot/flp）视图。在原始视图的基础上，我们利用调整大小后的视图和rot/flp视图分别构建了一个尺度增强模块和一个角度获取模块。在前一个模块中，设计了尺度敏感一致性（SSC）损失，以增强深度网络感知对象尺度的能力。对于准确的对象角度预测，后一个模块结合了自监督学习来预测角度，这与用于聚合对应于稀疏对象的密集角度的尺度引导的密集到稀疏（DS）匹配策略相关联。在训练过程中，使用渐进式多视图切换策略来切换调整大小的视图和rot/flp视图，以实现尺度和角度的耦合优化。在DIOR-R和DOTA-v1.0数据集上的实验结果表明，PointOBB实现了令人满意的性能，并显着优于潜在的点监督基线。

1.18 All in One: RGB, RGB-D, and RGB-T Salient Object Detection

一体化：RGB、RGB-D和RGB-T显著目标检测

https://arxiv.org/abs/2311.14746

显著对象检测（SOD）的目的是识别图像中最吸引人的对象。根据检测的数据类型，SOD可以分为各种形式，包括RGB，RGB-D（深度），RGB-T（热）和光场SOD。以往的研究主要集中在个体数据类型的显著性检测。如果RGB-D SOD模型被迫检测RGB-T数据，则其性能将很差。我们提出了一个创新的模型框架，为三种类型的数据（RGB，RGB-D和RGB-T）的显着对象检测任务提供了统一的解决方案。这三种类型的数据可以在一个模型中处理（所有在一个）具有相同的权重参数。在这个框架中，这三种类型的数据在一个单一的输入批次中以有序的方式连接，并使用Transformer网络提取特征。在此基础上，我们提出了一种高效的轻量级SOD模型AiOSOD，该模型可以高速检测任意RGB、RGB-D和RGB-T数据（RGB数据780 FPS，RGB-D或RGB-T数据485 FPS）。值得注意的是，仅使用6.25 M参数，AiOSOD在RGB，RGB-D和RGB-T数据集上实现了出色的性能。