ICLR2025自动驾驶Occ世界模型/Lidar生成论文解读：PreWorld，DynamicCity

最新推荐文章于 2025-05-15 16:53:44 发布

Gravity!

最新推荐文章于 2025-05-15 16:53:44 发布

阅读量1.2k

点赞数 39

分类专栏：自动驾驶文章标签：自动驾驶人工智能机器学习 ICRL

本文链接：https://blog.csdn.net/xying_chloe/article/details/145796398

版权

自动驾驶专栏收录该内容

11 篇文章

订阅专栏

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

论文1：[PreWorld] Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving.

https://arxiv.org/pdf/2502.07309

任务：4D占用预测（根据历史帧Occ预测未来帧Occ）
以前的方法：输入图像给3D占用模型获得历史Occ → 预测模块预测未来Occ
【问题：重复的编码和解码过程会造成信息丢失】
改进点：
- 直接实现图像到未来Occ预测【避免了信息丢失，同时优化占用网络和预测模块】
- 用2D标签进行自监督预训练 + Occ 全监督微调【更好地利用2D标签】
方法 & 训练范式：
- 阶段一【自监督预训练】：用图像自监督训练Occupancy Network（Occ网络）
- 阶段二【全监督微调】：用4D Occ全监督训练Forecasting Module（预测模块）
状态条件预测模块 State-Conditioned Forecasting Module
- 实现：从多帧历史图像中提取Volume体素特征 → 预测未来的体积特征 → 转换为未来Occ
- 预测模块：两个多层MLP【简单的模型也可以实现好的预测效果】
- 发现：仅在训练期间优化预测模块的做法不如 同时优化占用网络和预测模块
时序2D渲染自监督 Temporal 2D Rendering Self-supervision
- 实现：属性投影 → 射线生成 → 体积渲染 → 自监督训练
- 属性投影（类似Renderocc做法）：将3D体积特征转换为时序属性场（如密度、语义和RGB场）
- 射线生成：从多视角图像中提取3D射线，用自车姿态转换到当前帧，来捕捉多视角信息
- 体积渲染：在射线上采样多个点，分配权重，预测属性
- 自监督训练：Loss为2D渲染预测与2D标签之间深度、语义和RGB这些属性的差异
实验：
- 4D Occ预测，都为多视图输入

论文2：DynamicCity: Large-Scale Lidar Generation from Dynamic Scenes

https://arxiv.org/pdf/2410.18084

任务：4D LiDAR 场景生成
贡献点：
- 高效表示学习：基于VAE，把4D LiDAR特征压缩为六个2D特征图（HexPlane）
- 扩散模型生成：利用DiT生成HexPlane
- 多样化的下游应用：如轨迹引导生成、命令驱动生成、场景修复（inpainting）和布局条件生成
HexPlane：编码时空特征【降低计算复杂度，更灵活】
- 对时空中的任意点 $p=(t,x,y,z)$ ，在六个平面中提取相应特征
方法：
- 阶段一：VAE学习4D表征
  - 编码HexPlane【3D CNN提取特征、降采样】→ Projection Module【将4D特征投影到六张2D特征图】→ 解码HexPlane【并行解码六张特征图来重建特征体积序列，卷积上采样得语义预测】
- 阶段二：扩撒模型生成 Diffusion Transformer(DiT) for HexPlane
  - Padded Rollout Operation (PRO) 【高效建模特征序列中的空间和时间关系】
    - 动机：HexPlane的六个特征平面共享空间或时间维度，直接展平无法有效建模关系
    - 方法：将六个特征平面重新排列为一个正方形特征图，然后将特征图的patch转化为序列
  - 条件生成：Classifier-Free Guidance，训练时同时学习条件生成和无条件生成
实验（和OccSora比较）：