【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 10 日论文合集）

最新推荐文章于 2024-09-17 21:35:52 发布

旅途中的宽~

最新推荐文章于 2024-09-17 21:35:52 发布

阅读量245

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉目标检测人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/132445295

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 138 订阅

订阅专栏

文章目录

一、检测相关(12篇)

一、检测相关(12篇)

1.1 Volumetric Fast Fourier Convolution for Detecting Ink on the Carbonized Herculaneum Papyri

体积快速傅里叶卷积法检测炭化纸页上的油墨

https://arxiv.org/abs/2308.05070

数字文档恢复（DDR）的最新进展在分析高度损坏的书面文物方面取得了重大突破。其中，应用人工智能技术来虚拟地展开和自动检测Herculaneum papyri集合上的墨水的兴趣越来越大。该系列由碳化卷轴和文件碎片组成，这些文件已通过X射线断层扫描进行数字化，以便开发基于深度学习的特定DDR解决方案。在这项工作中，我们提出了一个修改的快速傅立叶卷积运算符的体积数据，并将其应用于具有挑战性的Herculaneum papyri油墨检测的分割架构，通过深入的实验分析证明其适用性。为了鼓励对该任务的研究以及将所提出的运算符应用于涉及体积数据的其他任务，我们将发布我们的实现（https：//github.com/aimagelab/vffc）

1.2 Density Crop-guided Semi-supervised Object Detection in Aerial Images

基于密度作物制导的航空图像半监督目标检测

https://arxiv.org/abs/2308.05032

训练现代对象检测器的重要瓶颈之一是需要标记的图像，其中边界框注释必须为图像中存在的每个对象产生。这种瓶颈在航空图像中进一步加剧，其中注释器必须标记小对象，通常分布在高分辨率图像上的集群中。近年来，利用伪标签和弱-强增强一致性训练的均值教师方法在半监督对象检测中越来越受欢迎。然而，这种半监督检测器的空中图像的直接适应，其中小的集群对象经常存在，可能不会导致最佳的结果。在本文中，我们提出了一种密度裁剪引导的半监督检测器，识别集群的小对象在训练过程中，并利用它们来提高性能，在推理。在训练期间，使用从标记和未标记图像识别的聚类的图像裁剪来增强训练集，这反过来增加了检测小对象和为未标记图像上的小对象创建良好伪标签的机会。在推断期间，检测器不仅能够检测感兴趣的对象，而且能够检测具有高密度的小对象（密度裁剪）的区域，使得来自输入图像的检测和来自图像裁剪的检测被组合，从而导致总体上更准确的对象预测，特别是对于小对象。对VisDrone和DOTA数据集的常用基准进行了实证研究，结果表明，我们的密度作物引导半监督检测器的有效性比COCO风格AP中的基本mean-teacher方法平均提高了2%以上.我们的代码可从以下网址获得：https://github.com/akhilpm/DroneSSOD。

1.3 An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

一种端到端的单目图像道路用户检测、跟踪和预测框架

https://arxiv.org/abs/2308.05026

涉及多目标检测和跟踪的感知以及轨迹预测是自动驾驶的两个主要任务。然而，它们目前主要被单独研究，这导致大多数轨迹预测模块基于地面实况轨迹开发，而不考虑从现实世界场景中的检测和跟踪模块提取的轨迹是有噪声的。这些噪声轨迹可能对轨迹预测器的性能具有显著影响，并且可能导致严重的预测误差。在本文中，我们建立了一个端到端的框架检测，跟踪和轨迹预测称为OTTP（在线检测，跟踪和预测）。它采用最先进的在线多目标跟踪模型QD-3DT进行感知，并直接根据检测结果训练轨迹预测器DCENet++，而不纯粹依赖于地面真实轨迹。我们在广泛使用的nuScenes自动驾驶数据集上评估了ODTP的性能。大量的实验表明，ODPT实现了高性能的端到端的轨迹预测。DCENet++具有增强的动态地图，比其基础模型预测更准确的轨迹。当与在噪声检测结果上训练的其他生成和确定性轨迹预测模型相比时，它也更鲁棒。

1.4 Gaussian Image Anomaly Detection with Greedy Eigencomponent Selection

基于贪婪特征分量选择的高斯图像异常检测

https://arxiv.org/abs/2308.04944

图像中的异常检测（AD）是计算机视觉中的一个关键问题，它可以识别与正态的显著偏差。本文介绍了一种新的方法，使用预训练的卷积神经网络（CNN），结合了EfficientNet模型的AD降维。我们调查的重要性的组件选择，并提出了两种类型的树搜索方法，都采用贪婪的策略，最佳的特征组件选择。我们的研究进行了三个主要的实验来评估我们的方法的有效性。第一个实验探讨了测试集性能对组件选择的影响，第二个实验考察了当我们训练一个异常类型和评估所有其他类型时的性能，第三个实验调查使用最少数量的图像进行训练和选择它们的异常类型的影响。我们的方法的目的是找到最佳的子集的组件，提供最高的性能得分，而不是只关注每个组件解释的方差的比例，也了解组件在不同设置的行为。我们的研究结果表明，所提出的方法超过主成分分析（PCA）和否定主成分分析（NPCA）的检测精度，即使使用较少的组件。因此，我们的方法提供了一个有前途的替代传统的降维技术在AD，并有潜力，以提高效率和有效性的AD系统。

1.5 Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance

基于马氏距离的无监督异地方言检测

https://arxiv.org/abs/2308.04886

方言分类被用于各种应用中，例如机器翻译和语音识别，以提高系统的整体性能。在现实世界的场景中，部署的方言分类模型可能会遇到与训练数据分布不同的异常输入，也称为分布外（OOD）样本。这些OOD样本可能会导致意外的输出，因为这些样本的方言在模型训练期间是不可见的。分布外检测是一个新的研究领域，在方言分类的背景下，很少受到关注。为此，我们提出了一个简单而有效的无监督马氏距离特征为基础的方法来检测出的分布样本。我们利用潜在的嵌入从所有中间层的wav2vec 2.0转换为基础的方言分类模型的多任务学习。我们提出的方法优于其他国家的最先进的OOD检测方法显着。

1.6 Multi-Scale Memory Comparison for Zero-/Few-Shot Anomaly Detection

用于零/少激发异常检测的多尺度记忆比较

https://arxiv.org/abs/2308.04789

异常检测由于其广泛的应用，特别是在工业缺陷检测中，获得了相当大的关注。为了解决数据收集的挑战，研究人员已经引入了零/Few-Shot异常检测技术，该技术需要每个类别的最小正常图像。然而，复杂的工业场景通常涉及多个对象，这带来了重大挑战。鉴于此，我们提出了一个简单而强大的多尺度内存比较框架，用于零/Few-Shot异常检测。我们的方法采用了一个全球性的内存银行捕捉整个图像的功能，而一个单独的内存银行专注于简化的场景包含一个单一的对象。我们的方法的有效性进行了验证，其显着的成就，第四名在zero-shot轨道和第二名在Few-Shot轨道的视觉异常和新奇检测（VAND）的竞争。

1.7 Multi-View Fusion and Distillation for Subgrade Distresses Detection based on 3D-GPR

基于3D-GPR的路基病害检测多视点融合与提取

https://arxiv.org/abs/2308.04779

三维探地雷达（3D-GPR）在路基病害检测中的应用得到了广泛的推广。为了提高检测的效率和准确性，开创性的研究尝试采用自动检测技术，特别是深度学习。然而，现有的工作通常依赖于传统的一维A扫描，二维B扫描或三维C扫描数据的探地雷达，导致空间信息不足或高计算复杂度。为了解决这些挑战，我们引入了一种新的方法，利用从3D-GPR数据的多视图信息的路基病害检测任务。此外，我们构建了一个真正的多视图图像数据集来自原始的3D-GPR数据的检测任务，它提供了更丰富的空间信息相比，A-扫描和B-扫描数据，同时降低计算复杂度相比，C-扫描数据。随后，我们开发了一种新的\textbf{M}ulti-\textbf {V} view\textbf{V}usion和\textbf{D} istilation框架，\textbf{GPR-MVFD}，专门设计用于优化利用多视图GPR数据集。该框架巧妙地结合了多视图蒸馏和基于注意力的融合，以促进路基病害的重要特征提取。此外，自适应学习机制，采用稳定的模型训练，防止性能退化，在每个分支。在这个新的探地雷达基准上进行的大量实验证明了我们所提出的框架的有效性和效率。我们的框架不仅优于现有的GPR基线，而且在多视图学习，多模态学习和知识蒸馏领域的最先进的方法。我们将发布构建的多视图GPR数据集与专家注释的标签和拟议的框架的源代码。

1.8 E3-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles

E3-UAV：一种基于边缘的无人机节能目标检测系统

https://arxiv.org/abs/2308.04774

受深度学习技术进步的推动，基于无人机（UAV）的物体检测的应用已经在一系列领域中激增，包括车辆计数、火灾检测和城市监控。虽然大多数现有的研究仅研究基于UAV的目标检测所固有的挑战的子集，但很少有研究平衡各个方面以设计用于降低能耗的实用系统。作为回应，我们提出了E3-UAV，一个基于边缘的节能目标检测系统的无人机。该系统被设计为动态地支持各种UAV设备、边缘设备和检测算法，目的是通过决定满足任务的检测要求所需的最节能的飞行参数（包括飞行高度、飞行速度、检测算法和采样率）来最小化能量消耗。我们首先提出了一个有效的实际任务的评估指标，并建立了一个透明的能源消耗模型的基础上，数百个实际的飞行数据，形式化的能源消耗和飞行参数之间的关系。然后，我们提出了一个轻量级的能量有效的优先级决策算法的基础上，大量的实际飞行数据，以帮助系统决定飞行参数。最后，我们评估了系统的性能，我们的实验结果表明，它可以显着降低能源消耗在现实世界中的场景。此外，我们还提供了四个见解，可以帮助研究人员和工程师进一步研究基于无人机的目标检测。

1.9 Objects do not disappear: Video object detection by single-frame object location anticipation

目标不消失：基于单帧目标定位预测的视频目标检测

https://arxiv.org/abs/2308.04770

视频中的对象通常以连续平滑运动为特征。我们利用连续平滑运动在三种方式。1)通过使用对象运动作为额外的监督源来提高准确性，我们通过从静态关键帧中预测对象位置来获得。2)通过仅在所有帧的一小部分上进行昂贵的特征计算来提高效率。由于相邻视频帧通常是冗余的，因此我们仅计算单个静态关键帧的特征并预测后续帧中的对象位置。3)降低了注释成本，我们只注释关键帧，并在关键帧之间使用平滑的伪运动。我们在四个数据集上展示了计算效率，注释效率和与最先进技术相比提高的平均精度：ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes和Waymo Open数据集。我们的源代码可以在https://github.com/L-KID/Videoobject-detection-by-location-anticipation上找到。

1.10 FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

FocalFormer3D：关注3D对象检测的硬实例

https://arxiv.org/abs/2308.04556

3D对象检测中的假阴性（FN），对行人、车辆或其他障碍物的预测缺失可能导致自动驾驶中的潜在危险情况。虽然是致命的，但这个问题在许多当前的3D检测方法中研究不足。在这项工作中，我们提出了硬实例探测（HIP），一个通用的管道，以多阶段的方式识别\textit{FN}，并引导模型专注于挖掘困难的实例。对于3D对象检测，我们将此方法实例化为FocalFormer 3D，这是一种简单而有效的检测器，擅长挖掘困难对象并提高预测召回率。FocalFormer 3D具有多阶段查询生成以发现硬对象和框级Transformer解码器，以有效地区分对象和大量对象候选者。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer 3D的优越性能。该优势导致在LiDAR和多模态设置中的检测和跟踪的强大性能。值得注意的是，FocalFormer 3D在nuScenes检测基准测试中获得了70.5 mAP和73.9 NDS，而nuScenes跟踪基准测试显示了72.1 AMOTA，两者都在nuScenes LiDAR排行榜上排名第一。我们的代码可以在\url{https：//github.com/NVlabs/FocalFormer3D}上找到。

1.11 YUDO: YOLO for Uniform Directed Object Detection

YUDO：用于均匀定向目标检测的YOLO

https://arxiv.org/abs/2308.04542

提出了一种通过预测目标中心坐标和方向角来检测有向目标的有效方法。由于对象是统一的大小，所提出的模型的工作原理，而无需预测对象的宽度和高度。用于此问题的数据集在Honeybee Segmentation and Tracking Datasets项目中给出。这项工作的贡献之一是检查的标准实时对象检测架构，如YoloV7的位置和方向检测进行定制的能力。在这种方法中使用了一种非常高效的小型架构。此外，三个检测头中只有一个没有锚就足以完成这项任务。我们还介绍了旋转盒定向IoU（DirIoU）的扩展的联合上的斜交（SkewIoU）计算，其包括绝对角度差。DirIoU用于mAP计算的目标和预测边界框的匹配过程以及NMS过滤过程。代码和型号可在https://github.com/djordjened92/yudo获得。

1.12 Toward unlabeled multi-view 3D pedestrian detection by generalizable AI: techniques and performance analysis

基于泛化人工智能的无标记多视角三维行人检测：技术与性能分析

https://arxiv.org/abs/2308.04515

我们揭示了如何可推广的人工智能可以用于改善多视图3D行人检测在未标记的目标场景。增加对新场景的泛化的一种方法是自动标记目标数据，然后可以将其用于训练检测器模型。在这种情况下，我们研究了两种自动标记目标数据的方法：使用监督检测器的伪标记和使用未经训练的检测器的自动标记（其可以在没有任何训练的情况下开箱即用）。我们采用了一个训练框架，用于优化检测器模型，使用自动标记程序。该框架包括不同的训练集/模式和多轮自动标记策略。我们对公开可用的WILDTRACK和MultiviewX数据集进行分析。我们表明，通过使用基于未经训练的检测器的自动标记方法，我们可以获得优于直接使用未经训练的检测器或检测器与现有的标记源数据集训练的结果。当使用WILDTRACK和MultiviewX作为目标数据集时，它实现了MODA约4%和1%的最佳现有未标记方法。