多机协同文献调研（更新中，纯做笔记，自用）

大泽泽的小可爱

已于 2024-11-20 13:22:02 修改

阅读量1.7k

点赞数 11

分类专栏：多机协同检测文章标签：无人机空地协同 python

于 2024-09-27 23:14:49 首次发布

本文链接：https://blog.csdn.net/zhangzhao147/article/details/142602908

版权

多机协同检测专栏收录该内容

3 篇文章

订阅专栏

多机协同文献调研

1.多视角融合检测
2.3d目标检测（multi-view 3d object detection）
3.无人机协同检测
6.BEV 和多车协同

关键词：ultiview Detection 多视图检测，https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/123766663，
多视角融合检测
多视角目标检测

参考帖子1：https://www.zhihu.com/question/651573920/answer/3468794482?utm_campaign=shareopn&utm_medium=social&utm_psn=1819927941745876992&utm_source=wechat_session

参考帖子2：多角度融合纯视觉目标检测

综述：
3D object detection for autonomous driving: A comprehensive survey
3D Object Detection From Images for Autonomous Driving: A Survey
纯视觉3d目标检测：纯视觉3D检测综述！一文详解3D检测现状、趋势和未来方向！
参考的一些文章：
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
 BEVStereo | nuScenes纯视觉3D目标检测新SOTA！(旷视、中科大)
nuScenes纯视觉目标检测无外部数据榜单

1.多视角融合检测

2023

VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection（code）

在自动驾驶中，车辆-基础设施协同三维物体检测（VIC3D）利用来自车辆和交通基础设施的多视角摄像头，提供了超越单一车辆视角的全球视角和丰富的路况语义信息。在VIC3D中，存在两个主要挑战：1）由于摄像头时间不同步，融合多视角图像时会产生固有的校准噪声；2）将2D特征投影到3D空间时的信息丢失。为了解决这些问题，我们提出了一种新颖的三维物体检测框架，称为车辆-基础设施多视角中间融合（VIMI）。

首先，为了充分利用车辆和基础设施的整体视角，我们提出了多尺度交叉注意力（MCA）模块，在选择性多尺度上融合基础设施和车辆特征，以修正由摄像头不同步引入的校准噪声。然后，我们设计了一个摄像机感知通道掩蔽（CCM）模块，利用摄像机参数作为先验信息来增强融合特征。我们进一步引入了特征压缩（FC）模块，通过通道和空间压缩块来减小传输特征的大小，提高传输效率。实验结果表明，VIMI在新的VIC3D数据集DAIR-V2X-C上实现了15.61%的总体AP_3D和21.44%的AP_BEV，显著超越了最先进的早期融合和晚期融合方法，同时保持了可比的传输成本。

MFFN: Multi-View Feature Fusion Network for Camouflaged Object Detection （cvpr code）

近期关于伪装物体检测（COD）的研究旨在分割隐藏在复杂环境中的高度隐蔽物体。这些微小而模糊的伪装物体导致视觉上难以区分的特性。然而，目前的单视角COD检测器对背景干扰敏感。因此，伪装物体的模糊边界和变化形状很难通过单视角检测器完全捕捉。为了克服这些障碍，我们提出了一种受行为启发的框架，称为多视角特征融合网络（MFFN），它模拟人类在图像中寻找不清晰物体的行为，即从多个角度、距离和视角观察。具体而言，其关键思想是通过数据增强生成多种观察方式（多视角），并将其作为输入。MFFN通过比较和融合提取的多视角特征来捕捉关键的边界和语义信息。此外，我们的MFFN利用视角和通道之间的依赖性和交互性。具体而言，我们的方法通过一个名为多视角共同注意（CAMV）的两阶段注意模块利用不同视角之间的互补信息。同时，我们设计了一个局部-整体模块，称为通道融合单元（CFU），以迭代方式探索多样特征图的通道上下文线索。实验结果表明，我们的方法在使用相同数据进行训练时，表现优于现有的最先进方法。代码将发布在 https://github.com/dwardzheng/MFFN_COD。

Multi-View Target Transformation for Pedestrian Detection（wacv ）

遮挡是单视角行人检测中最具挑战性的问题之一。为了缓解遮挡问题，人们利用多视角系统来全面获取和识别遮挡目标。大多数情况下，文献中的方法都是利用透视变换来聚合场景的不同感知视角，但投影失真问题会导致空间结构断裂，使这些方法无法充分探索投影特征。在本文中，我们提出了一种新方法–多视角目标变换（Multi-view Target Transformation，MVTT），通过编码完整的目标特征并限制投影特征的关注区域，来解决多视角聚合固有的失真问题。实验结果表明，我们提出的方法在公共数据集上的表现优于近期的相关方法。消融研究也证实了拟议组件的有效性。

Multi-View Adversarial Discriminator: Mine the Non-Causal Factors for Object Detection in Unseen Domains（cvpr code）

单目三维物体检测已成为自动驾驶中的主流方法，因为它易于应用。其显著优势在于推理过程中不需要LiDAR点云。然而，目前大多数方法仍依赖于3D点云数据来标记训练阶段使用的真实值。这种训练与推理之间的不一致使得利用大规模反馈数据变得困难，并增加了数据收集成本。为了解决这一问题，我们提出了一种新的弱监督单目3D物体检测方法，可以仅使用在图像上标记的2D标签进行模型训练。具体而言，我们探索了该任务中的三种一致性，即投影、一致性、多视角一致性和方向一致性，并基于这些一致性设计了一种弱监督架构。此外，我们提出了一种新的2D方向标记方法，以指导模型进行准确的旋转方向预测。实验表明，我们的弱监督方法在性能上与一些全监督方法相当。当作为预训练方法使用时，我们的模型仅用1/3的3D标签就能显著超越相应的全监督基线。

Viewpoint equivariance for multi-view 3d object detection （cvpr code）

来自视觉传感器的三维物体检测是机器人系统的一项基础能力。最先进的方法专注于从多视角相机输入中推理和解码物体边界框。在本研究中，我们从多视角一致性在三维场景理解和几何学习中的重要作用中获得直觉。为此，我们引入了VEDet，这是一种新颖的三维物体检测框架，利用三维多视角几何来通过视角感知和等变性提高定位精度。VEDet采用基于查询的变换器架构，通过将图像特征与其三维视角几何的位置信息编码进行增强，来编码三维场景。我们在输出层设计了视角条件查询，这使得在训练过程中生成多个虚拟帧，从而通过强制多视角一致性来学习视角等变性。输入层注入的多视角几何作为位置信息编码，并在损失层进行正则化，为三维物体检测提供了丰富的几何线索，从而在nuScenes基准上取得了最先进的性能。代码和模型已在 https://github.com/TRI-ML/VEDet 发布。

Dual Fusion-Propagation Graph Neural Network for Multi-View Clustering

深度多视图表示学习的重点是为多源或多模态数据训练统一的低维表示。随着图神经网络受到越来越多的关注，越来越多的研究人员将各种图模型引入多视图学习。尽管已经取得了相当大的成就，但现有的大多数方法通常只传播单一视图的信息，并且只从属性或关系的角度融合多种信息。为了解决上述问题，我们提出了一种高效模型，称为双融合-传播图神经网络（DFP-GNN），并将其应用于深度多视图聚类任务。所提出的方法设计了三个子模块，具有以下优点：a) 所提出的特定视图传播模块和跨视图传播模块可以捕捉多个视图之间的一致性和互补性信息；b) 所设计的融合模块可以同时执行节点属性和节点间关系的多视图信息融合。在流行数据库上的实验表明，与几种最先进的算法相比，DFP-GNN 取得了显著的效果。

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection（ICCV）

我们介绍的 NeRF-Det 是一种以 RGB 图像为输入进行室内 3D 检测的新方法。现有的室内 3D 检测方法难以建立场景几何模型，与之不同的是，我们的方法以端到端的方式利用 NeRF 来明确估计 3D 几何图形，从而提高 3D 检测性能。具体来说，为了避免与 NeRF 按场景优化相关的大量额外延迟，我们引入了足够的几何先验，以增强 NeRF-MLP 的普适性。此外，我们还通过共享 MLP 巧妙地连接了检测和 NeRF 分支，使 NeRF 能够高效地适应检测，并为 3D 检测提供几何感知的体积表示。在 ScanNet 和 ARKITScenes 基准测试中，我们的方法分别以 3.9 mAP 和 3.1 mAP 的优势领先于同行。我们提供了大量分析，以阐明 NeRF-Det 是如何工作的。由于我们采用了联合训练设计，NeRF-Det 能够很好地泛化到未见过的场景中，用于物体检测、视图合成和深度估计任务，而无需根据场景进行优化。代码见 https://github.com/facebookresearch/NeRF-Det。

X-View: Non-Egocentric Multi-View 3D Object Detector（trans ）

用于自动驾驶的三维物体检测算法可从三维鸟瞰图或透视图或两者中对三维障碍物进行推理。近期的研究试图通过挖掘和融合多个自我中心视图来提高检测性能。虽然以自我为中心的透视图缓解了鸟瞰图的一些弱点，但在距离上，分段网格划分变得非常粗糙，目标和周围环境混杂在一起，这使得特征的辨别能力降低。本文概括了三维多视角学习的研究，提出了一种新颖的基于多视角的三维检测方法，命名为 X-view，以克服多视角方法的缺点。具体来说，X-view 突破了传统透视图的限制，即透视图的原点必须与三维笛卡尔坐标一致。 X-view 被设计为一种通用范例，几乎可以应用于所有基于激光雷达的三维探测器，而且只需增加少量运行时间，无论是基于体素/网格还是基于原始点。我们在 KITTI 和 NuScenes 数据集上进行了实验，以证明我们提出的 X-view 的鲁棒性和有效性。结果表明，X-view 与主流的最先进 3D 方法相结合，可以获得一致的改进。

2020

Multi-View Vehicle Detection Based on Fusion Part Model With Active Learning（tans）

基于计算机视觉的车辆检测技术被广泛应用于现实世界。然而，这些技术大多只能检测单视角车辆，其性能很容易受到局部遮挡的影响。因此，本文提出了一种新颖的多视角车辆检测系统，利用零件模型来解决部分遮挡问题和各类车辆之间的高差异问题。本文有三个特点：首先，与可变形零件模型不同，本文中零件模型的构建是可视化的，可以随时更换。其次，本文根据大量现代车辆的外观分析，通过主动学习算法，提出了一些新的车辆检测零件模型。最后，本文提出了一种包含颜色变换和贝叶斯规则的方法来过滤背景，以加快检测时间并提高准确率。在给定的数据集上，所提出的方法优于其他方法。

2024

Exploring Recurrent Long-Term Temporal Fusion for Multi-View 3D Perception

在基于摄像头的鸟瞰（BEV）三维感知中，长期时间融合是一项至关重要但却经常被忽视的技术。现有的方法大多采用并行方式。虽然并行融合可以从长期信息中获益，但随着融合窗口大小的增加，计算和内存开销也在增加。另外，BEVFormer 采用了一种递归融合管道，可以有效地整合历史信息，但它无法从较长的时间帧中获益。在这封信中，我们在基于 LSS 方法的基础上，探索了一种令人尴尬的简单长期循环融合策略，发现它已经能够同时享受两方面的优点，即丰富的长期信息和高效的融合管道。我们还进一步提出了一个时间嵌入模块，以提高模型的鲁棒性，避免在实际场景中偶尔出现漏帧的情况。我们将这一简单而有效的融合管道命名为 VideoBEV。 nuScenes 基准的实验结果表明，VideoBEV 在各种基于摄像头的三维感知任务中表现出色，包括物体检测（55.4% mAP 和 62.9% NDS）、分割（48.6% vehicle mIoU）、跟踪（54.8% AMOTA）和运动预测（0.80 m minADE 和 0.463 EPA）。

Lifting Multi-View Detection and Tracking to the Bird’s Eye View（cvpr code）

利用多视角聚合的优势，为解决多目标跟踪和检测中的遮挡和漏检等难题提供了一种前景广阔的解决方案。通过战略性地将所有视图投射到地平面，并从鸟瞰视图（BEV）进行检测分析，多视图检测和三维物体识别的最新进展大大提高了性能。在本文中，我们将无参数和参数化的现代提升方法与多视角聚合方法进行了比较。此外，我们还介绍了一种架构，该架构可聚合多个时间步骤的特征以学习鲁棒检测，并结合基于外观和运动的线索进行跟踪。目前的大多数跟踪方法要么专注于行人，要么专注于车辆。在我们的工作中，我们将这两个分支结合起来，为跨场景设置的多视角检测增加了新的挑战。我们的方法适用于两个领域的三个公共数据集：(1) 行人：Wildtrack 和 MultiviewX；(2) 路边感知： Synthehicle 在检测和跟踪方面达到了最先进的性能。

EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection（ICRA CODE）

：在自动驾驶中，协同感知利用来自车辆和基础设施的多视角摄像头，提供了超越单一车辆视角的全球视角和丰富的路况语义信息。目前，在车辆-基础设施协同三维（VIC3D）物体检测中仍存在两个主要挑战：1）由于摄像头之间的时间不同步，融合多视角图像时会产生固有的姿态误差；2）由于通信带宽有限，传输过程中会导致信息丢失。为了解决这些问题，我们提出了一种新颖的基于摄像头的VIC3D任务三维检测框架，称为增强多尺度图像特征融合（EMIFF）。

为了充分利用车辆和基础设施的整体视角，我们提出了多尺度交叉注意力（MCA）和摄像机感知通道掩蔽（CCM）模块，以在尺度、空间和通道层面增强基础设施和车辆特征，从而修正由摄像头不同步引入的姿态误差。我们还引入了一个特征压缩（FC）模块，结合通道和空间压缩块，以提高传输效率。实验结果表明，EMIFF在DAIR-V2X-C数据集上实现了最先进的性能，显著超越了先前的早期融合和晚期融合方法，同时保持了可比的传输成本。

2.3d目标检测（multi-view 3d object detection）

2022

Mvss-net: Multi-view multi-scale supervised networks for image manipulation detection（TPAMI code）

由于通过复制移动、拼接和/或内绘等方式对图像进行处理可能会导致对视觉内容的误读，因此检测这类处理对媒体取证至关重要。鉴于可能对内容进行的攻击多种多样，设计一种通用方法并非易事。目前基于深度学习的方法在训练数据和测试数据完全一致的情况下很有前途，但在独立测试中表现不佳。此外，由于缺乏真实的测试图像，其图像级检测特异性也令人怀疑。问题的关键在于如何设计和训练一个深度神经网络，使其能够学习对新数据中的操作敏感的通用特征，同时又能防止对真实图像的误报。我们提出了多视角特征学习，以共同利用篡改边界伪影和输入图像的噪声视角。由于这两条线索都与语义无关，因此学习到的特征具有通用性。为了有效地从真实图像中学习，我们使用多尺度（像素/边缘/图像）监督进行训练。我们将新网络称为 MVSS-Net，并将其增强版称为 MVSS-Net++。在数据集内和跨数据集场景下进行的实验表明，MVSS-Net++ 性能最佳，在 JPEG 压缩、高斯模糊和基于屏幕截图的图像重捕捉方面表现出更好的鲁棒性。

2024

Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

https://finance.sina.cn/tech/2024-06-27/detail-incaefsf9892062.d.html
在这篇入选的论文中，Nullmax纽劢提出了一种名为QAF2D（Query Anchor From 2D）的多相机3D目标检测新方法。该方法通过2D检测结果引导生成3D查询锚点（Query Anchor），显著提升了多相机3D目标检测的性能。同时，Nullmax纽劢还利用视觉提示（Visual Prompt）设计了一套两阶段的优化方法，让2D和3D检测器共用图像特征提取网络，有效降低了模型训练和部署的资源消耗。

2023

https://blog.csdn.net/weixin_47196664/article/details/135312372

Viewpoint Equivariance for Multi-View 3D Object Detection（cvpr code）

通过视觉传感器进行三维物体检测是机器人系统的一项基础能力。最先进的方法侧重于从多视角摄像头输入中推理和解码物体边界框。在这项工作中，我们从多视角一致性在三维场景理解和几何学习中不可或缺的作用中获得了直觉。为此，我们引入了 VEDet，这是一种新颖的三维物体检测框架，它利用三维多视角几何图形，通过视点感知和等差关系改进定位。 VEDet 利用基于查询的转换器架构，通过对三维透视几何图形进行位置编码来增强图像特征，从而对三维场景进行编码。我们在输出层设计了视图条件查询，从而能够在训练过程中生成多个虚拟帧，通过执行多视图一致性来学习视点等差性。在输入层注入的多视角几何图形作为位置编码，并在损失层进行正则化，为三维物体检测提供了丰富的几何线索，从而在 nuScenes 基准测试中取得了一流的性能。代码和模型可在 https://github.com/TRI-ML/VEDet 上获取。

Temporal enhanced training of multi-view 3d object detector via historical object prediction（cvpr code）

在本文中，我们提出了一种新的范式，称为历史物体预测（HoP），旨在更有效地利用时间信息进行多视角三维检测。HoP方法非常简单：给定当前时间戳t，我们从相邻帧生成时间戳t-k的伪鸟瞰图（BEV）特征，并利用该特征预测时间戳t-k的物体集。我们的方法的动机在于，强制检测器捕捉发生在历史时间戳上的物体的空间位置和时间运动，可以导致更准确的BEV特征学习。首先，我们精心设计了短期和长期时间解码器，这些解码器可以在不涉及相应相机图像的情况下生成时间戳t-k的伪BEV特征。其次，一个额外的物体解码器灵活地附加在一起，使用生成的伪BEV特征来预测物体目标。请注意，我们仅在训练过程中执行HoP，因此所提出的方法不会在推理时引入额外开销。作为一种即插即用的方法，HoP可以轻松地集成到最先进的BEV检测框架中，包括BEVFormer和BEVDet系列。此外，辅助的HoP方法与现有的时间建模方法互为补充，带来了显著的性能提升。我们在nuScenes数据集上进行了大量实验，以评估所提HoP的有效性。我们选择了代表性的方法，包括BEVFormer和BEVDet4D-Depth来评估我们的方法。令人惊讶的是，HoP在nuScenes测试集上以ViT-L模型达到了68.2%的NDS和61.6%的mAP，显著超越了排行榜上的所有3D物体检测器。

Learning To Fuse Monocular and Multi-View Cues for Multi-Frame Depth Estimation in Dynamic Scenes

多帧深度估算通常依靠多视角几何一致性实现高精度。当应用于动态场景（如自动驾驶）时，这种一致性通常会在动态区域受到破坏，从而导致估计结果的损坏。许多多帧方法都是通过明确的遮罩来识别动态区域，并以局部单目深度或特征表示的单目线索来补偿多目线索，从而处理动态区域。由于遮罩的质量不受控制，以及两种线索融合的优势未得到充分利用，因此改进效果有限。在本文中，我们提出了一种新颖的方法，无需启发式掩码，即可学习融合多视角和单眼线索，并将其编码为体积。正如我们的分析所揭示的那样，在静态区域，多视角线索能捕捉到更准确的几何信息，而在动态区域，单目线索能捕捉到更有用的背景信息。为了让从静态区域的多视角线索中学到的几何感知传播到动态区域的单眼表征中，并让单眼线索增强多视角成本量的表征，我们提出了交叉线索融合（CCF）模块，其中包括交叉线索注意（CCA），以编码来自每个来源的空间非局部相对内部关系，从而增强另一个来源的表征。在真实世界数据集上的实验证明了所提方法的显著有效性和泛化能力。

SA-BEV: Generating Semantic-Aware Bird’s-Eye-View Feature for Multi-view 3D Object Detection

Imgeonet: Image-induced geometry-aware voxel representation for multi-view 3d object detection

SOGDet: Semantic-occupancy guided multi-view 3D object detection

在自动驾驶领域，对三维环境的准确和全面感知至关重要。鸟瞰图（BEV）方法作为一种前景解决方案，已被广泛应用于使用多视角图像进行三维物体检测。然而，现有的三维物体检测方法往往忽视了环境中的物理上下文，例如人行道和植被，从而导致性能不足。本文提出了一种新方法，称为SOGDet（语义占用引导的多视角三维物体检测），该方法利用三维语义占用分支来提高三维物体检测的准确性。具体而言，语义占用建模的物理上下文有助于检测器以更全面的视角感知场景。我们的SOGDet方法灵活易用，可以与大多数现有的BEV方法无缝集成。为了评估其有效性，我们将该方法应用于几个最先进的基线，并在独特的nuScenes数据集上进行了广泛实验。结果表明，SOGDet在nuScenes检测分数（NDS）和均值平均精度（mAP）方面持续提升了三种基线方法的性能。这表明，三维物体检测与三维语义占用的结合能够提供更全面的三维环境感知，从而帮助构建更强大的自动驾驶系统。代码可在以下链接获取：https://github.com/zhouqiu/SOGDet。

3.无人机协同检测

2022

Airpose: Multi-view fusion network for aerial 3d human pose and shape estimation（iros code）

2023

Multi-view Detection Method for UAVs Based on Probabilistic Fusion

单个无人飞行器（UAV）的人体检测容易受到视角的限制，无法获得足够的物体特征信息。为解决这一问题，本文提出了一种基于概率融合的无人机多视角检测方法。该方法综合利用无人机从不同视角检测到的人体特征来提高检测效果。首先，从 Okutama-action 数据集中选取图像，基于 Yolov8 训练人体检测器。然后，采用 SIFT 算法进行全局特征匹配，以获得不同视角图像之间的视角变换矩阵，从而在同一坐标系中测量不同图像中物体之间的距离。然后，利用全局最近邻的概念实现物体关联。最后，利用基于概率的方法融合两架无人机的检测结果，并将结果与常见的融合方法进行比较。实验结果表明，所提出的方法可以提高检测效率：物体关联方法的准确率高于 90%，融合方法可以减少漏检。

2024

Multiview Aerial Visual RECognition (MAVREC): Can Multi-view Improve Aerial Visual Perception?（cvpr code）

尽管无人机（UAV）在市场上广泛存在，但空中数据采集仍然面临挑战。现有的以亚洲和北美为中心的开源无人机数据集规模较小、分辨率较低，并且缺乏场景多样性。此外，场景的颜色内容、太阳天顶角和不同地区的人口密度等因素会影响数据的多样性。这些因素共同导致深度神经网络（DNN）模型在主要基于地面视角数据（包括开放世界基础模型）训练时，产生亚optimal的空中视觉感知。为此，我们提出了多视角空中视觉识别（MAVREC），这是一个视频数据集，通过不同视角（地面摄像头和无人机搭载摄像头）记录同步场景。MAVREC包含约2.5小时的行业标准2.7K分辨率视频序列，超过50万帧和110万个标注边界框。这使得MAVREC成为最大规模的地面和空中视角数据集，并在所有无人机基础的数据集中排名第四。在对MAVREC进行广泛基准测试后，我们发现将对应地理位置的地面视角图像与物体检测器结合，是提升空中检测的更优预训练策略。在这一策略基础上，我们通过一种基于课程的半监督物体检测方法对MAVREC进行了基准测试，该方法利用标注（地面和空中）和未标注（仅空中）图像来增强空中检测效果。

UVCPNet: A UAV-Vehicle Collaborative Perception Network for 3D Object Detection

4.从多视角融合入手，包括用于分割任务的，纯图像融合任务（Multi-view fusion）

5.多机间通信

Large language models for uavs: Current state and pathways to the future

UCDNet: Multi-UAV Collaborative 3D Object Detection Network by Reliable Feature Mapping

6.BEV 和多车协同

BEVerse：自动驾驶视觉为中心的BEV统一感知和预测框架(这篇文献不错)

NeurIPS 2023 | CoBEVFlow: 解决车-车/路协同感知的时序异步问题

帖子讲解

CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达

帖子讲解
来自上海交通大学、加州大学洛杉矶分校、以及上海人工智能实验室的研究者提出了纯视觉协作探测方法（CoCa3D），通过让多个基于纯视觉的智能车高效协作，在 3D 目标探测效果上，接近甚至超越基于激光雷达的智能车。
论文标题：Collaboration Helps Camera Overtake LiDAR in 3D Detection

论文链接：https://arxiv.org/abs/2303.13560

代码链接：https://github.com/MediaBrain-SJTU/CoCa3D