MapTR 模型详解：结构化建模与在线矢量化高精地图构建的开端

最新推荐文章于 2025-03-01 15:25:18 发布

置顶 crlearning

最新推荐文章于 2025-03-01 15:25:18 发布

阅读量1k

点赞数 35

分类专栏：自动驾驶算法-无图感知文章标签：自动驾驶目标检测计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_44711102/article/details/145759001

版权

自动驾驶算法-无图感知专栏收录该内容

3 篇文章

订阅专栏

之前看的HDMapNet和VectorMapNet虽然能够处理矢量化地图，但是速度都比较慢，而且效果也不是非常好。在HDMapNet中由于后处理导致处理慢；在VectorMapNet由于序列化生成时速度慢使得结果生成慢；这些模型难以满足实时在线建图的要求，MapTR 模型正是在这样的背景下应运而生，它通过端到端的 Transformer 架构，矢量化建模，实现了高效、准确的在线矢量化地图构建。本文将从模型创新、各模块的概念（包括为何需要该模块、作用及其工作机制）、代码实现细节和实验效果等多个角度，带大家深入解析 MapTR 模型。有没讲清楚的地方，希望大家提出建议，一起学习

论文地址：https://arxiv.org/pdf/2208.14437

代码地址：GitHub - hustvl/MapTR: [ICLR'23 Spotlight & IJCV'24] MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction

HDMapNet详解：HDMapNet 模型详解：端到端高精地图构建的创新之路-CSDN博客

VectorMapNet详解：VectorMapNet 模型详解：高效构建矢量地图的全新思路_vector map builder 矢量地图在线工具-CSDN博客

1. 模型创新点及其原理

1.1 排列等效建模 —— 消除排列歧义

1.1.1背景（为什么需要它）：

在之前模型的地图元素建模中，通常用一个有序点集来表示元素，但对于闭合多边形或开放折线来说，其点集排列并非唯一。例如，闭合多边形具有循环对称性，任何顶点都可作为起点；而开放折线存在正序与逆序两种等价排列。下面举个例子说明一下（知道的同学可以跳过）：

假设我们有一个地图元素，比如一个闭合多边形，它由若干个顶点构成。由于闭合多边形具有循环对称性，任何一个顶点都可以作为起点，顺序向后循环排列都能得到同样的形状。例如，点集 {v0,v1,v2,…,vN−1}与 {v1,v2,…,vN−1,v0} 表示的多边形在几何上完全一致，起点不同。对于开放折线，还存在正序和逆序两种等价的排列。如果我们在监督阶段强制模型输出一种固定的排列顺序，就会出现以下问题：

失去内在对称性信息：本质上相同的形状会有多种合法的排列方式，固定顺序会将这些等价表达人为区分开，导致模型可能预测出另一种完全正确但排列不同的结果，却因为与固定顺序不一致而被判定为错误。
监督信号冲突：由于实际的GT（Ground Truth）本身没有唯一确定的排列，固定的排列方式会使得损失函数对预测顺序异常敏感。比如，一个微小的循环位移或者方向翻转，都可能引入较大误差，这就使得学习过程不稳定，从而影响最终模型性能。
额外负担：模型除了需要捕捉地图元素的几何形状之外，还要学会如何将点按特定顺序排列，这其实是无关紧要的“噪声”。这种额外约束会分散模型对核心几何信息的关注，导致收敛速度变慢，效果也可能不如预期。

1.1.2如何解决

为了解决这些问题，MapTR 提出了排列等效建模的思想，即把地图元素表示为点集和一组所有可能的等价排列集合，让匹配过程自动选择最合适的排列来计算损失，从而避免了人为固定排列带来的模糊性和监督矛盾。这种方法既能准确描述元素的几何形状，也能使模型训练过程更加稳定和高效。

MapTR 提出将地图元素表示为 V=(V,Γ) 的二元组，其中

V 表示点集，
Γ 表示所有可能的等价排列集合。

在训练时，模型只需预测点集 V^hat；损失计算阶段，会遍历预定义的排列集合 Γ 以找到与预测结果最匹配的排列，从而消除排列歧义问题，使得监督信号更稳定、收敛更快。

下图表明了折线和多边形的两种排列集合。

1.1.3 消融实验效果

从指标和收敛速度来看，采用等效排列的方式确实能够给模型带来优势

1.2分层查询嵌入与分层匹配 —— 全局与局部信息兼顾

1.2.1 背景

在在线地图构建中，需要识别两个关键信息：

全局信息（哪里有线）：需要识别整个地图元素的存在、类别和大致位置；
局部信息（线是否贴合）：需要精细回归出地图元素的边界点，以精确描述其形状。
传统方法往往难以同时兼顾这两方面，导致整体识别与细节回归之间存在矛盾或信息丢失。

是否可以在transformer中query初始化利用这两个信息进行建模，从而提升模型性能呢？

1.2.2 模块实现

MapTR 采用分层查询嵌入策略，将查询分为两类：

实例级查询 $q_i^{ins}$ ：负责捕捉整体信息，判断元素的存在及类别；
点级查询 $q_j^{pt}$ ：专注于元素内部细节，用于精确预测几何点坐标。

两者通过简单相加生成最终的分层查询：

$q_{ij}^{hie}=q_i^{ins} + q_j^{pt}$

在模型中：

全局层面：实例级查询确保模型能整体识别出地图元素，类似于目标检测中的候选框生成；
局部层面：点级查询则负责对每个实例进行精细点回归。

训练时，MapTR 先通过实例级匹配确定预测与 GT 实例的对应关系，再在局部层面进行点级匹配和损失计算（如曼哈顿距离、边缘方向损失），实现全局与局部的有机融合。

首先为匹配cost：先进行实例。再进行点集匹配

总体损失分为三块：类别损失，点到点距离，边方向损失

1.2.3 消融实验

对实例query和point query采用不同的数量，结果也会不同，选取最优搭配

1.3 端到端 Transformer 架构 —— 高效信息交互与实时推理

端到端方法能够：

简化流程：直接从原始图像到矢量地图输出，无需繁杂的后处理；
充分利用全局信息：Transformer 的自注意力机制能够捕捉长距离依赖，提升整体预测准确性。

MapTR 借鉴 DETR 思路构建了编码器-解码器结构：

地图编码器：负责将来自车载相机的多视角图像特征转换为统一的鸟瞰视图（BEV）特征。这里引入了 2D-to-BEV 模块（如 GKT），通过几何投影将各视角信息融合到一个 BEV 表示中。
地图解码器：基于分层查询嵌入，对 BEV 特征进行多层迭代更新，实现查询与特征的充分交互，最终输出地图元素的类别和点集坐标。

这种设计使得模型可以一次性并行预测所有地图元素，同时通过自注意力机制实现信息的全局交互，从而达到高精度与实时性的双重要求。