ICLR2025自动驾驶Occ世界模型/Lidar生成论文解读:PreWorld,DynamicCity

【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

论文1:[PreWorld] Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving.

https://arxiv.org/pdf/2502.07309

  • 任务:4D占用预测(根据历史帧Occ预测未来帧Occ)
  • 以前的方法:输入图像给3D占用模型获得历史Occ → 预测模块预测未来Occ
    【问题:重复的编码和解码过程会造成信息丢失】
  • 改进点:
    • 直接实现图像到未来Occ预测【避免了信息丢失,同时优化占用网络和预测模块】
    • 用2D标签进行自监督预训练 + Occ 全监督微调【更好地利用2D标签】
  • 方法 & 训练范式:
    • 阶段一【自监督预训练】:用图像自监督训练Occupancy Network(Occ网络)
    • 阶段二【全监督微调】:用4D Occ全监督训练Forecasting Module(预测模块)
  • 状态条件预测模块 State-Conditioned Forecasting Module
    • 实现:从多帧历史图像中提取Volume体素特征 → 预测未来的体积特征 → 转换为未来Occ
    • 预测模块:两个多层MLP【简单的模型也可以实现好的预测效果】
    • 发现:仅在训练期间优化预测模块的做法 不如 同时优化占用网络和预测模块
  • 时序2D渲染自监督 Temporal 2D Rendering Self-supervision 
    • 实现:属性投影 → 射线生成 → 体积渲染 → 自监督训练
    • 属性投影(类似Renderocc做法):将3D体积特征转换为时序属性场(如密度、语义和RGB场) 
    • 射线生成:从多视角图像中提取3D射线,用自车姿态转换到当前帧,来捕捉多视角信息
    • 体积渲染:在射线上采样多个点,分配权重,预测属性
    • 自监督训练:Loss为2D渲染预测与2D标签之间深度、语义和RGB这些属性的差异
  • 实验:
    • 4D Occ预测,都为多视图输入

论文2:DynamicCity: Large-Scale Lidar Generation from Dynamic Scenes

https://arxiv.org/pdf/2410.18084

  • 任务:4D LiDAR 场景生成
  • 贡献点:
    • 高效表示学习:基于VAE,把4D LiDAR特征压缩为六个2D特征图(HexPlane)
    • 扩散模型生成:利用DiT生成HexPlane
    • 多样化的下游应用:如轨迹引导生成、命令驱动生成、场景修复(inpainting)和布局条件生成
  • HexPlane:编码时空特征【降低计算复杂度,更灵活】
    • 对时空中的任意点 p=(t,x,y,z) ,在六个平面中提取相应特征
  • 方法:
    • 阶段一:VAE学习4D表征
      • 编码HexPlane【3D CNN提取特征、降采样】→ Projection Module【将4D特征投影到六张2D特征图】→  解码HexPlane【并行解码六张特征图来重建特征体积序列,卷积上采样得语义预测】
    • 阶段二:扩撒模型生成 Diffusion Transformer(DiT) for HexPlane
      • Padded Rollout Operation (PRO) 【高效建模特征序列中的空间和时间关系】
        • 动机:HexPlane的六个特征平面共享空间或时间维度,直接展平无法有效建模关系
        • 方法:将六个特征平面重新排列为一个正方形特征图,然后将特征图的patch转化为序列
      • 条件生成:Classifier-Free Guidance,训练时同时学习条件生成和无条件生成
  • 实验(和OccSora比较):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值