【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（12 月 4 日论文合集）（上）_raising the bar of ai-generated image detection wi-CSDN博客

本文链接：https://blog.csdn.net/wzk4869/article/details/134798701

本文综述了多个领域的检测技术发展，包括视觉丰富文档的表结构识别、对象检测器对合成与真实数据的处理、自动驾驶中的3D目标检测、强化学习中的目标跟踪评估、激光雷达路缘检测及纺织品瑕疵检测。CLIP展示了在AI生成图像检测中的突破。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、检测相关(13篇)

一、检测相关(13篇)

1.1 Rethinking Detection Based Table Structure Recognition for Visually Rich Documents

基于反思性检测的视觉丰富文档表格结构识别

https://arxiv.org/abs/2312.00699

表结构识别（TSR）旨在将非结构化的表图像转换为结构化的格式，如HTML序列。一种流行的解决方案是使用检测模型来检测表的组件，例如列和行，然后应用基于规则的后处理方法将检测结果转换为HTML序列。然而，现有的基于检测的研究往往具有以下局限性。首先，这些研究通常更加关注提高检测性能，这并不一定导致关于小区级度量（诸如TEDS）的更好的性能。其次，有些解决方案过于简化问题，可能会遗漏一些关键信息。最后，尽管一些研究将问题定义为检测更多组件以提供与其他类型的解决方案一样多的信息，但这些研究忽略了这个问题定义是多标签检测的事实，因为行，投影行标题和列标题可以共享相同的边界框。此外，在仅结构TEDS方面，两阶段和基于变压器的检测模型之间通常存在性能差距，即使它们在COCO度量方面具有相似的性能。因此，我们重新审视现有的基于检测的解决方案的局限性，比较两阶段和基于变压器的检测模型，并确定两阶段检测模型的TSR任务，包括多类问题定义，锚框生成的纵横比，和骨干网络的功能生成的成功的关键设计方面。我们应用简单的方法来改进Cascade R-CNN模型的这些方面，实现了最先进的性能，并将基线Cascade R-CNN模型在SciTSR，FinTabNet和PubTables 1 M数据集上的仅结构TEDS方面改进了19.32%，11.56%和14.77%。

1.2 Object Detector Differences when using Synthetic and Real Training Data

使用合成和真实训练数据时的对象检测器差异

https://arxiv.org/abs/2312.00694

为了训练性能良好的泛化神经网络，需要足够大和多样化的数据集。在遵守隐私立法的同时收集数据变得越来越困难，并且注释这些大型数据集是一项资源繁重且耗时的任务。克服这些困难的一种方法是使用合成数据，因为它本质上是可扩展的，可以自动注释。然而，对合成数据的训练如何影响神经网络的层仍不清楚。在本文中，我们训练YOLOv 3对象检测器的真实和合成图像从城市环境。我们使用中心核对齐（CKA）进行相似性分析，以逐层探索训练对合成数据的影响。该分析捕获了检测器的架构，同时显示了不同模型之间的不同和相似模式。通过这种相似性分析，我们希望了解训练合成数据如何影响每一层，并更好地理解复杂神经网络的内部工作原理。结果表明，在真实数据上训练的检测器和在合成数据上训练的检测器之间的最大相似性在早期层中，并且最大差异在头部部分中。结果还表明，在冷冻和未冷冻的骨架之间没有看到性能或相似性的重大差异。

1.3 Towards Efficient 3D Object Detection in Bird’s-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach

基于卷积的自动驾驶鸟瞰空间三维目标检测方法

https://arxiv.org/abs/2312.00633

鸟瞰图（BEV）空间中的3D对象检测最近已经成为自动驾驶领域中的流行方法。尽管与透视图方法相比，在准确性和速度估计方面有所改进，但在现实世界的自动驾驶车辆中部署基于BEV的技术仍然具有挑战性。这主要是由于它们依赖于基于视觉变换器（ViT）的架构，这引入了相对于输入分辨率的二次复杂度。为了解决这个问题，我们提出了一个高效的基于BEV的3D检测框架，称为BEVENet，它利用卷积的架构设计来规避ViT模型的限制，同时保持基于BEV的方法的有效性。我们的实验表明，BEVENet在NuScenes挑战上比当代最先进的（SOTA）方法快3倍，在NuScenes验证数据集上实现了0.456的平均精度（mAP）和0.555的nuScenes检测分数（NDS），推理速度为每秒47.6帧。据我们所知，这项研究是第一个为基于BEV的方法实现如此显著的效率改进的研究，突出了它们在现实世界自动驾驶应用中的可行性。

1.4 Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version)

强化学习中的目标位置跟踪：关键点检测的度量方法(扩展版)

https://arxiv.org/abs/2312.00592

用于机器人控制的强化学习（RL）通常需要环境状态的详细表示，包括有关无法直接测量的任务相关对象的信息。关键点检测器，如空间自动编码器（SAE），是从高维图像数据中提取低维表示的常用方法。SAE的目标是空间特征，如对象位置，这通常是机器人RL中有用的表示。然而，SAE是否实际上能够跟踪场景中的对象，从而产生非常适合RL任务的空间状态表示很少被检查，由于缺乏既定的指标。在本文中，我们建议通过测量关键点跟踪图像中的地面真实对象的程度来评估SAE实例的性能。我们提出了一个计算轻量级的指标，并使用它来评估共同的基线SAE架构的图像数据从模拟机器人任务。我们发现，常见的SAE在空间提取能力上有很大的不同。此外，我们验证了在我们的指标中表现良好的SAE在用于下游RL时实现了卓越的性能。因此，我们的指标是执行昂贵的RL训练之前RL性能的有效和轻量级指标。基于这些见解，我们确定了SAE架构的三个关键修改，以提高跟踪性能。我们在anonymous.4open.science/r/sae-rl上提供我们的代码。

1.5 LiDAR-based curb detection for ground truth annotation in automated driving validation

基于激光雷达的路缘检测用于自动驾驶验证中的地面真实注释

https://arxiv.org/abs/2312.00534

路边检测对于自动驾驶（AD）中的环境感知至关重要，因为它通常会限制可驾驶和不可驾驶区域。注释数据对于开发和验证AD功能是必要的。然而，带有注释点云限制的公共数据集的数量很少。本文提出了一种从LiDAR传感器捕获的点云序列中检测3D路缘石的方法，该方法包括两个主要步骤。首先，我们的方法使用分割深度神经网络在每次扫描时检测路缘。然后，序列级处理步骤使用车辆的里程计来估计重构点云中的3D路缘。从路缘的这些3D点，我们获得了按照ASAM OpenLABEL标准构造的多段线。这些检测可以用作标记管道中的预注释，以有效地生成路缘相关的地面实况数据。我们通过一个实验验证了我们的方法，在这个实验中，不同的人类注释者需要在一组基于LiDAR的序列中注释限制，有和没有我们自动生成的预注释。结果表明，由于我们的检测，人工标注时间减少了50.99%，保持了数据质量水平。

1.6 Unsupervised textile defect detection using convolutional neural networks

基于卷积神经网络的无监督纺织品瑕疵检测

https://arxiv.org/abs/2312.00224

在这项研究中，我们提出了一种新的基于图案的无监督纺织品异常检测方法，该方法结合了传统卷积神经网络与无监督学习范式的优点。该方法主要包括预处理、模式周期自动提取、斑块提取、特征选择和异常检测五个步骤。该方法采用了一种新的动态和启发式的特征选择方法，避免了滤波器（神经元）的数量及其权重的初始化的缺点，以及反向传播机制的缺点，如消失梯度，这是最先进的方法中的常见做法。网络的设计和训练是以动态和基于输入域的方式进行的，因此不需要自组织配置。在构建模型之前，仅定义层数和步幅。我们不随机初始化权重，也不定义滤波器大小或滤波器的数量，如在基于CNN的方法中通常所做的那样。这减少了在超参数初始化和微调上花费的精力和时间。只需要一个无缺陷的样本进行训练，不需要进一步的标记数据。然后，训练的网络用于检测有缺陷的织物样本上的异常。我们证明了我们的方法的有效性图案织物基准数据集。与最先进的无监督方法相比，我们的算法在更短的时间内产生了可靠和有竞争力的结果（在召回率，精度，准确度和f1测量方面），在单个时期内进行了有效的训练，计算成本较低。

1.7 Raising the Bar of AI-generated Image Detection with CLIP

使用CLIP提高AI生成图像检测的标准

https://arxiv.org/abs/2312.00195

这项工作的目的是探索预训练的视觉语言模型（VLM）用于AI生成图像的通用检测的潜力。我们开发了一个轻量级的检测策略CLIP功能的基础上，并研究其性能在各种各样的挑战性的情况下。我们发现，与以前的信念不同，使用大型特定领域的数据集进行训练既不必要也不方便。相反，通过仅使用来自单个生成模型的少数示例图像，基于CLIP的检测器在几种不同的架构中表现出令人惊讶的泛化能力和高鲁棒性，包括最近的商业工具，如Dalle-3，Midjourney v5和Firefly。我们在分布数据上匹配SoTA，并在分布外数据的泛化（AUC方面+6%）和受损/清洗数据的鲁棒性（+13%）方面大大提高。我们的项目可以在https://grip-unina.github.io/ClipBased-SyntheticImageDetection/上找到