面向BEV感知的4D标注方案

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


技术简介

  • 4D标注主要在3D空间+时序(动态物体)维度上进行标注;

  • 以BEV为代表的感知任务输出空间从2D透视图像空间转换到3D空间,相应地从空间也转换到3D空间。

    相关感知任务分为静态感知(路面要素、灯牌锥),动态感知(Detection、Tracking、Prediction、属性),通用障碍物感知(Occupancy/Occupancy Flow)

整体技术路线

通过4D重建实现点云级别或者object级别的重建,通过人工标注积累原始数据。
随着数据积累到一定程度,可以训练云端大模型逐步替换人工标注,可提升80%+的标注效率。
基本流程为:采集数据(包括极光雷达、相机、IMU、GPS)等→输入给动/静态场景进行4D重建→进行人工标注与之间→进行云端模型训练→进行模型预刷(3D or BEV)→进行多传感器交叉验证。

常用传感器

  • 传感器布局:周视7v摄像头+环视4v摄像头;采集车安装Pandar128
  • 外参标定:Lidar-camera标定重投影误差<3px;在线标定角度误差<0.1deg,标定方式包括工厂标定和在线标定。
  • 时间同步:时间同步偏差<5ms,11v图像同步曝光。
    -11v图像同步曝光

数据规格定义

  • Clip是一段固定时间长度(15s)或者空间距离长度(300m)的视频片段,包括多有传感器的数据
  • Site是空间中的物理坐标点,由位于同一位置的多个clips构成

路面静态要素标注-局部建图:利用Lidar数据结合IMU/GNSS实现cm级别精度的路面重建;采用单趟重建和多趟聚合的方式,既能保证局部建图的完整性,满足远距离真值感知的需求,又能够平摊标注成本。

  • 单趟局部建图:Lidar 定位建图依然面临着挑战,例如车辆高速行驶导致初始化困难;采用多传感器融合结合Lidar-seg语义信息提升单次建图的精度和鲁棒性,初始化成功率>98%,单趟重建的精度达到cm级(与高精度RTK进行评测)
  • 多趟聚合:多趟聚合的核心点在于位置重试别即回环检测,由于驾驶场景环境单一,容易引起回环检测失败率搞等问题;采用Lidar-seg结合Learing based features,多躺聚合的成功率可提升到90%以上。

大模型预刷:输入语义、Intensity、纹理图、通过云端模型实现高度自动化标注,可节省80%以上的人工标注成本;模型支持离散要素、几何、属性、连接关系的标注;通过多个clip的聚合,不但可以保证局部建图的完整性,以满足远距离感知的需求,同时可以通过共享标注的方式减少标注成本,平均重投影误差<3px。

与HD Map的对比

图商的HDmap:

  • 高精度传感器,成本高,可扩展性差;
  • 受地图鲜度影响,地图更新慢;
  • 定位精度差,横向误差10cm,纵向误差40+cm;
  • 完整度高、信息丰富

4D Label:

  • 一般精度传感器,适用于采集车;
  • 即建即用,不存在地图鲜度的问题;
  • 定位精度高,横纵向<10cm;
  • 局部的建图,可快速覆盖

地库场景

地库泊车场景采用全局建图的方式,建图精度可以达到cm级别(人工构造回环评测)

动态物体标注

  • 针对bev3E 感知以及端到端模型的真值需求,提供3D det,Tracking,速度,加速度状态针织
  • 采用Lidar+camera后融合的方式进行大模型预刷,结合图像感知结果cross check实现全自动标注。

静态要素标注

  • 采用Lidar+camera后融合的方式实现锥桶的3D真值全自动标注
  • 锥桶针织标注precision > 95%,recall > 95%,dxyp < 5%

通用障碍物自动标注

  • Occupancy反映了场景中动静态物体的占据情况,用于识别场景中的通用障碍物
  • Occupancy真值的标注过程应该减少对语义的依赖,更多地使用几何信息
  • Occupancy真值对小物体(50cm * 50cm)的recall > 92%,能有效地识别场景中的宠物、不规则障碍物,推车人等。

纯视觉标注方案

  • 纯视觉方案的核心在于高精度的pose重建,我们采用改造的SFM方案实现了cm精度的重建
  • 相比较于多模态方案,纯视觉方案避免了不同传感器之间的外参标定和时间同步问题,生产的真值一致性更高

路面静态要素

  • 对传统的增量incremental SFM进行优化,采用GNN+Wheel+IMU优化后的姿态作为初始值,直接进行Multiple-camera及时序上的三角化,可以提升10+倍的计算效率,RTE < 0.5%
  • 采用Learning based features(Superpoint/Superglue)提升再弱纹理区域的重建鲁棒性
  • 采用语义引导的MVS提升的点云的重建精度。
  • 在SFM提供的准确的视觉pose以及稀疏3D点的基础之上,采用Nerf对路面进行重建,从而对路面的要素进行标注。
  • 采用Nerf对路面进行重建,同时获取路面高度和纹理信息,利用语义信息进行监督,可以有效地址弱纹理的影响
  • 将路面高度和语义用MLP进行表达
  • 其他静态要素:以SFM提供的准确的视觉pose和系数3D点为基础,获取3D空间中交通牌的proposal,之后和2D图像预刷结果进行联合优化,角点重投影误差< 2px。
  • 与多模方案对比,一致性更好,与相机运动完全自洽。
  • 云上大模型可以采用更大容量的模型以及性能更高的时空融合策略
  • 当云端大模型性能指标高于端上10个点以上,便具备作为真值预刷的可行性。

动态要素标注

  • 大模型有效感知范围150m,测距误差 < 5%,AP > 90%
  • 纯视觉动态链路真值与Lidar gt对端上模型的提升作用基本一致(AP相差在1个点内)

通用障碍物标注

  • 采用多传感器之间的空间约束和时序约束进行自监督学习。
  • 采用DRO的优化模块提升网络的泛化性能。
  • 对于depth的估计,采用仿真数据,可以有效地提升动态物体边缘的感知效果。
  • Occupancy/Occupancy flow的真值可以用于处理场景中的通用障碍物,Occupancy/Occupancy flow可以看作是depth的端到端融合
  • 100m以内对有较好的测距精度 abs.rel < 8%

高效的人工标注能力

  • 静态要素4D标注、动态物体3D框检测与跟踪
  • 任务调度机制支持千人级并发作业
  • 物理层(如车道线)标注和逻辑层标注(如交通灯与车道关联关系)
  • 点/线/面/体 标注、人机交互式半自动化提取,自动贴合点云、3D向量反投影图像空间、标注结果播放质检等
  • 动态物体3D框标注、跟踪标注、属性标注

数据链路-HD Flow

  • Hrizon Data Flow(HDFlow)是在AIDI之上构建的,基于DAG的算法自动化开发全链路闭环工具
  • DAG指有向无环图,我们通过DAG引擎串联独立的任务(OP),形成自动化的工作流
  • HDFlow对不同的DAG引擎进行了抽象和封装,简化OP接口,同时支持本地和分布式执行

大模型用于辅助标注

  • 从Low level的任务到High Level的任务,大模型会在标注重发挥越来越重要的作用
  • 模型的迭代效率和成本是AI产品的核心竞争力
  • 高精度高为你当选的定位和建图是4D Label的基础
  • 端到端模型是实现数据闭环的重要环境,一些后处理的任务奖会从端上走到云上,成为真值标注方案,甚至云端智能驾驶方案
  • 数据防着你合成是解决corner case的非常有潜力的途径。

总结

提示:这里对文章进行总结:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值