LMPOcc：利用历史遍历的长期记忆先验进行 3D 语义占用预测-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/147676825

25年4月来自复旦和重庆长安汽车公司的论文“LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals”。

基于视觉的 3D 语义占用预测对于自动驾驶至关重要，可实现静态基础设施和动态代理的统一建模。实际上，自动驾驶汽车可能会在不同的环境条件下（例如天气波动和光照变化）重复穿越相同的地理位置。现有的 3D 占用预测方法主要整合相邻的时间上下文。然而，这些研究忽略利用从相同地理位置的历史遍历中获取的感知信息。本文中提出长期记忆先验占用 (LMPOcc)，这是一个利用从历史遍历感知输出中获得的长期记忆先验 3D 占用预测方法。其引入一种即插即用架构，该架构集成长期记忆先验以增强局部感知，同时构建全局占用表示。为了自适应地聚合先验特征和当前特征，开发了一个高效的轻量级当前先验融合模块。此外，提出一种与模型无关的先验格式，以确保与不同的占用率预测基线兼容。LMPOcc 在 Occ3D-nuScenes 基准测试中实现了最佳性能，尤其是在静态语义类别方面。此外，实验结果证明 LMPOcc 能够通过多车众包构建全局的占用情况。

LMPOcc 如图所示：（a）现有研究主要整合来自邻近观测的信息。（b）本研究融合从当前位置的历史遍历中获得的感知信息。历史感知信息构建全局占用，并作为长期记忆的先验信息。

请添加图片描述

现有的 3D 占用预测研究已通过 BEV 特征对齐、自注意机制和基于 3D 卷积时间融合等方法探索时间信息融合。然而，这些方法主要整合相邻帧的信息，如图 (a) 所示。当遇到严重遮挡或光照不足等具有挑战性的观测条件时，性能仍然不够理想，因为当前观测和相邻观测都会受到共同的挑战性条件的影响。在这种情况下，利用在良好观测条件下从同一位置收集的历史感知信息可以有效解决这一限制。因此，将长期记忆先验融入 3D 占用预测至关重要。

先前的方法，例如神经地图先验 [1]，成功地将长期记忆先验应用于在线高清地图构建等静态感知任务。由于动态智体会表现出时间状态的变化，长期记忆先验能否为整合静态和动态感知的三维占用预测带来性能提升，仍有待实证验证。此外，神经地图先验存储了先验知识的潜特征表示，其实际应用仍然受到对局部感知模型的依赖的限制。三维占用预测需要一种可泛化的长期记忆先验表示格式，以确保跨模型兼容性，同时促进可扩展的众包数据采集。

本研究提出长期记忆先验占用 (LMPOcc)，这是一个框架，它利用来自同一空间位置、跨越不同时间戳的历史感知信息，将跨时间的长期记忆先验融入三维占用预测中。

如图所示是长期记忆先验占用 (LMPOcc) 的概述。LMPOcc 通过合并长期记忆占用先验 (LMOP) 模块扩展了占用预测基线，从而增强局部感知并促进全局占用的构建。系统接收输入 I = {I, G_ego}，包括环视图像 I 和自车的局部到全局坐标变换 G_ego。该模型通过占用编码器处理环视图像以生成潜特征。然后，这些潜特征被输入到 LMOP 模块以获得增强的占用 logit，随后由占用解码器处理以产生最终的 3D 语义占用预测结果。在 LMOP 模块中，当前特征通过当前-先验融合模块与相应的先验特征融合，从而产生细化的潜特征。这些经过细化的潜特征随后通过神经网络处理转换为占用逻辑向量 (Occupancy Logit)。这些占用逻辑向量用于更新先验特征，并生成最终的占用预测结果。

请添加图片描述

长期记忆占用先验 (LMOP) 模块即插即用，并与各种 3D 占用基线兼容。它使局部感知和全局占用相互促进。受 NMP [1] 的启发，全局占用采用稀疏地图 tile 结构，其中每个 tile 与物理坐标几何对齐，并以空状态初始化。稀疏地图 tile 结构通过仅存储可导航的城市区域来减少内存使用量。其基于坐标的索引允许车辆根据需要加载特定地图区域，从而无需存储全城地图。对于每个 tile，迭代更新持久全局占用表示 P，其中 H_G 和 W_G 定义城市级地图tile 的空间分辨率，Z 表示垂直离散化深度，N_sem 对应于可区分目标类别的数量。全局地图和局部先验特征均通过高度-到-通道的变换以鸟瞰图 (BEV) 格式表示，如 FlashOcc [24] 中所示。BEV 格式的先验降低存储成本，并提高双向局部-全局索引效率。BEV 特征中每个像素的局部坐标 c_t 通过 G_ego 转换为相应的全局坐标 p_t。在建立局部和全局占用之间的空间对应关系后，通过卷积层对齐先验和当前特征通道，然后将当前特征与先验特征融合以增强局部感知。增强的感知输出以占用 logits 表示，作为更新的先验，替换全局占用中相应的先验特征。

当前-先验融合 (CPFusion) 如上图所示。CPFusion 模块包含两个并行分支，包括一个连接分支和一个逐元素加法分支。连接分支将当前特征 F_c 和先验特征 F_p 连接起来，形成组合特征 F_cat。同时，逐元素加法分支得到它们的逐元素和结果 F_add。然后将这两个特征 F_cat 和 F_add 连接起来，并通过卷积层，然后通过 S 型激活函数，得到一个张量 α，其值限制在 0 到 1 之间。该张量 α 用作加权因子，通过加权和来动态平衡当前特征和先验特征的贡献。

先验信息以 Occupancy Logits 的形式存储，确保全局占用先验信息在部署期间不受任何特定占用预测模型的影响。融合当前特征和先验特征以获得精细的潜特征后，网络会通过神经网络处理将这些特征转换为 Occupancy Logits O_L，其中 H_L、W_L 和 Z 分别定义占用逻辑单元的长、宽和高，N_sem 对应于可区分目标类别的数量。为了避免在先验信息中存储可见区域之外的噪声，采用摄像机可见性掩码来仅保留 Occupancy Logits 可观察区域内的内容。摄像机可见性掩码可以按照 Occ3D-NuScenes [25] 中描述的方法生成。在此基准测试中，摄像机可见性掩码是通过将射线从每个占用体素中心投射到摄像机原点来确定的。沿着每条射线，第一个相交的占用体素被标记为“已观察”，而同一射线上的后续体素则被标记为“未观察”。任何未与这些射线相交的体素都会自动被赋予“未观察”状态。随后，掩码的Occupancy Logits 被重塑为H_L × W_L × (Z · N_sem)，并且位于全局占用中相应位置的内容将被新的 Occupancy Logits 替换。

通常，先验中的动态目标由于其与当前观测值的时间不一致而被移除。然而，从先验中过滤掉动态目标并不能提升模型性能。这表明历史动态目标可能为局部感知提供有效信息。因此，该方法保留先验中的动态成分。提出了两种从先验中移除动态目标的方法，并讨论了先验中动态成分对 LMPOcc 的影响。

采用 FlashOcc [24] 和 DHD [28] 作为基线模型。在训练期间，使用预训练权重初始化模型，并冻结当前潜特征之前的参数。集成 LMOP 模块后，再训练 24 个 epoch，同时保持与基线设置相同的实验配置。禁用 BEV 空间数据增强，以防止当前特征与先前特征之间出现不一致。LMPOcc 中全局占用的通道维度计算为占用的高度乘以语义类别数，具体为 16×18，而有关全局图的其他配置与 Neural Map Prior [1] 中的配置保持一致。所有模型均在 6 块 NVIDIA A100 GPU 上以批次大小 4 进行训练。