【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（10 月 2 日论文合集）_lef: late-to-early temporal fusion for lidar 3d ob-CSDN博客

本文链接：https://blog.csdn.net/wzk4869/article/details/133782717

文章目录

一、检测相关(8篇)

一、检测相关(8篇)

1.1 See Beyond Seeing: Robust 3D Object Detection from Point Clouds via Cross-Modal Hallucination

超越视线：通过跨模式幻觉从点云中进行稳健的3D目标检测

https://arxiv.org/abs/2309.17336

本文提出了一种新的框架，强大的3D对象检测点云通过跨模态幻觉。我们提出的方法是不可知的激光雷达和4D雷达之间的幻觉方向。我们在空间和特征水平上引入多重比对，以实现同时的骨干细化和幻觉生成。具体而言，空间对齐提出了处理的几何差异，更好地实例之间的匹配LiDAR和雷达。特征对准步骤进一步桥接感测模态之间的固有属性差距并且稳定训练。训练的目标检测模型可以更好地处理困难的检测情况，即使在推理阶段仅使用单模态数据作为输入。在Delft视图（VoD）数据集上进行的大量实验表明，我们提出的方法在雷达和LiDAR对象检测方面优于最先进的（SOTA）方法，同时在运行时保持有竞争力的效率。

1.2 Revisiting Cephalometric Landmark Detection from the view of Human Pose Estimation with Lightweight Super-Resolution Head

从轻量级超分辨率头部人体姿态估计的角度重新审视头影测量标志点检测

https://arxiv.org/abs/2309.17143

头影测量标志点的精确定位在正畸学和正颌学领域具有重要意义，因为其具有自动标记关键点的潜力。在界标检测的背景下，特别是在头影测量中，已经观察到现有方法通常缺乏标准化的流水线和精心设计的偏差减少过程，这显著影响了它们的性能。在本文中，我们重新审视了一个相关的任务，人体姿态估计（HPE），其中有许多相似之处与头影测量标志检测（CLD），并强调从前者领域转移技术的潜力，使后者受益。基于这一见解，我们基于成熟的HPE代码库（称为MMPose）开发了一个强大且适应性强的基准测试。此基准可以作为实现出色CLD性能的可靠基准。此外，我们在框架内引入了一个升级设计，以进一步提高性能。这种增强涉及到一个轻量级和高效的超分辨率模块的合并，它生成高分辨率特征的热图预测，并导致进一步的性能改进，受益于其减少量化偏差的能力。在MICCAI CLDetection2023挑战赛中，我们的方法在三个指标上获得了第一名，在剩下的一个指标上获得了第三名。我们的方法的代码可在https://github.com/5k5000/CLdetection2023获得。

1.3 Unveiling Document Structures with YOLOv5 Layout Detection

使用YOLOv5布局检测功能揭开文档结构的面纱

https://arxiv.org/abs/2309.17033

当前数字环境的特点是数据的广泛存在，特别是非结构化数据，这在金融、医疗保健和教育等领域带来了许多问题。传统的数据提取技术在处理非结构化数据的固有多样性和复杂性方面遇到困难，因此需要采用更有效的方法。本研究探讨利用YOLOv 5，一个尖端的计算机视觉模型，快速识别文档布局和提取非结构化数据的目的。本研究建立了一个概念框架，划定的概念“对象”，因为它们涉及到文件，纳入各种元素，如段落，表格，照片和其他组成部分。主要目标是创建一个自治系统，可以有效地识别文档布局和提取非结构化数据，从而提高数据提取的有效性。在所进行的检查中，YOLOv 5模型在文档布局识别任务中表现出显着的有效性，实现了高准确率以及0.91的精确度值，0.971的召回值，0.939的F1分数，以及0.975的受试者工作特征曲线下面积（AUC-ROC）。该系统的卓越性能优化了从文档图像中提取文本和表格数据的过程。它的应用前景不仅限于文档分析，还可以包括来自不同来源的非结构化数据，如音频数据。这项研究为未来研究YOLOv 5在管理各种类型的非结构化数据方面的更广泛适用性奠定了基础，为跨多个领域的新应用提供了潜力。

1.4 Robust Asynchronous Collaborative 3D Detection via Bird’s Eye View Flow

基于鸟眼视流的稳健异步协同三维检测

https://arxiv.org/abs/2309.16940

通过促进多个代理之间的通信，协作感知可以大大提高每个代理的感知能力。然而，在现实世界中，由于通信延迟、中断和时钟失调，代理之间的时间延迟是不可避免的。这一问题导致多智能体融合过程中的信息不匹配，严重动摇了协作的基础。为了解决这个问题，我们提出了CoBEVFlow，一个基于鸟瞰图（BEV）流的可靠的协作3D感知系统。CoBEVFlow的关键直觉是补偿运动以对齐由多个代理发送的异步协作消息。为了对场景中的运动进行建模，我们提出了BEV流，它是与每个空间位置相对应的运动矢量的集合。基于BEV流，异步感知特征可以被重新分配到适当的位置，从而减轻异步的影响。CoBEVFlow有两个优点：（i）CoBEVFlow可以处理以不规则的连续时间戳发送的异步协作消息，而无需离散化;以及（ii）对于BEV流，CoBEVFlow仅传输原始感知特征，而不是生成新的感知特征，避免了额外的噪声。为了验证CoBEVFlow的有效性，我们创建了IRregular V2 V（IRV 2 V），这是第一个具有各种时间异步的合成协作感知数据集，模拟了不同的现实世界场景。在IRV 2 V和真实世界数据集DAIR-V2X上进行的大量实验表明，CoBEVFlow始终优于其他基线，并且在极端异步设置中具有鲁棒性。代码将被释放。

1.5 LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection

LEF：用于LiDAR三维目标检测的晚到早时间融合

https://arxiv.org/abs/2309.16870

我们提出了一个后期到早期的经常性特征融合方案，使用时间激光雷达点云的三维物体检测。我们的主要动机是融合对象感知的潜在嵌入到3D对象检测器的早期阶段。与直接从原始点学习相比，这种特征融合策略使模型能够更好地捕获具有挑战性的对象的形状和姿势。我们的方法进行后期到早期的特征融合在一个经常性的方式。这是通过在时间校准和对齐的稀疏柱令牌上强制执行基于窗口的注意力块来实现的。利用鸟瞰图前景柱分割，我们将模型需要融合到当前帧中的稀疏历史特征的数量减少了10倍。我们还提出了一个随机长度的FrameDrop训练技术，该技术将模型推广到可变帧长度的推理，以提高性能，而无需再训练。我们在广泛采用的Waymo开放数据集上评估了我们的方法，并证明了相对于基线模型的3D对象检测的改进，特别是对于具有挑战性的大型对象类别。

1.6 Stochastic Digital Twin for Copy Detection Patterns

用于复制检测模式的随机数字双胞胎

https://arxiv.org/abs/2309.16866

复制检测图案（CDP）是一种有效的产品防伪技术。然而，研究CDP生产可变性的复杂性通常导致耗时且昂贵的程序，从而限制了CDP的可扩展性。最近在计算机建模方面取得的进展，特别是印刷成像通道的“数字孪生”概念，使认证系统的可扩展性和优化得以增强。然而，准确的数字孪生的发展远非微不足道。本文扩展了以前的研究，使用基于机器学习的数字孪生CDP的打印成像通道建模。该模型建立在称为“Turbo”的信息理论框架之上，表现出优于传统生成模型（如CycleGAN和pix2pix）的性能。然而，去噪扩散概率模型（DDPM）的新兴领域提出了一个潜在的进步，由于其随机建模的固有随机性的打印成像过程的能力，其令人印象深刻的性能在图像到图像的翻译任务的生成模型。本研究旨在比较Turbo框架和DDPM在相同CDP数据集上的功能，目的是为CDP安全中的数字孪生应用程序建立DDPM模型的现实优势。此外，本文旨在评估所研究的模型在手机数据采集的背景下的生成潜力。尽管与传统方法相比，DDPM方法的复杂性增加，但我们的研究突出了它们的优势，并探讨了它们在未来应用中的潜力。

1.7 Photonic Accelerators for Image Segmentation in Autonomous Driving and Defect Detection

用于自动驾驶和缺陷检测中图像分割的光子加速器

https://arxiv.org/abs/2309.16783

光子计算承诺比传统数字硬件更快，更节能的深度神经网络（DNN）推理。光子计算的进步可以对自动驾驶和缺陷检测等应用产生深远的影响，这些应用依赖于快速，准确和节能的图像分割模型执行。在本文中，我们研究了光子加速器上的图像分割，以探索：a）最适合于光子加速器的图像分割DNN架构的类型，以及b）在光子加速器上执行不同图像分割模型的吞吐量和能量效率，以及其中涉及的权衡。具体来说，我们证明了某些分割模型在光子加速器上执行时，其准确性损失可以忽略不计（与数字float32模型相比），并探索了其鲁棒性的经验推理。我们还讨论了在模型表现不佳的情况下恢复准确性的技术。此外，我们比较了光子加速器上不同图像分割工作负载的吞吐量（每秒推理）和能耗估计。我们讨论的挑战和潜在的优化，可以帮助提高光子加速器的应用程序，这样的计算机视觉任务。

1.8 Automatic Cadastral Boundary Detection of Very High Resolution Images Using Mask R-CNN

基于MASK R-CNN的超高分辨率影像地籍边界自动检测

https://arxiv.org/abs/2309.16708

近年来，人们对加速和改进地籍自动成图的检测提出了很高的要求。由于这个问题还处于起步阶段，因此还有许多计算机视觉和深度学习的方法尚未被考虑。在本文中，我们专注于深度学习，并提供了三种几何后处理方法，以提高工作质量。我们的框架包括两个部分，每个部分由几个阶段组成。我们解决这个问题的方法是使用实例分割。在第一部分中，我们在ImageNet数据集上使用Mask R-CNN和预训练的ResNet-50的主干。在第二阶段，我们应用三种几何后处理方法的第一部分的输出，以获得更好的整体输出。在这里，我们还使用计算几何介绍了一种新的方法来简化线，我们称之为口袋为基础的简化算法。为了评估我们的解决方案的质量，我们使用在这个领域中流行的公式是召回率，精度和F分数。我们获得的最高召回率为95%，这也保持了72%的高精度。这导致F分数为82%。使用Mask R-CNN对其输出进行一些几何后处理来实现实例分割，为该领域提供了有希望的结果。实验结果还表明，基于口袋的简化算法比Douglas-Puecker算法在简化直线时效果更好。