CVPR2025自动驾驶世界模型论文笔记:DriveDreamer4D, ReconDreamer

【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

论文1:DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

  • 开源代码:GitHub - GigaAI-research/DriveDreamer4D: [CVPR 2025] DriveDreamer4D
  • 核心思想:用世界模型(world models)的先验知识来增强 4D 场景表示
  • 为什么需要世界模型?
    • 现有的闭环仿真主要用Nerf、3DGS等重建技术,生成场景受限于训练数据分布(比如训练数据大多数是直行,那重建出来的大多也是直行的场景),所以在复杂操作(如变道、加速、减速)时表现不佳。然而世界模型能够生成多样化的驾驶视频。
  • 使用 4DGS(3DGS+时间维度)表示4D场景
    • 把场景中的物体表示为一堆高斯球(有椭球形状、位置、透明度、颜色)
    • 用时间场模块预测每个timestep的高斯球变化情况
    • 通过2D投影,算每个像素的颜色(透明度*颜色*高斯球权重),得到图像
    • 损失函数:RGB 损失、深度损失和 SSIM 损失(结构相似性指数,度量两幅图像间的结构相似性)
  • 使用扩散模型实现视频生成的世界模型
  • DriveDreamer4D方法
    • 由两部分组成:新型轨迹生成模块(NTGM)和 表亲数据训练策略(CDTS)
    • Novel Trajectory Video Generation 新型轨迹生成模块
      • 文本指令生成多样化复杂轨迹(text-to-trajectory)→ 安全性评估(是否在可行驶区域内,避免与其他交通参与者碰撞)→ 将新轨迹的3D box、HDMap投影到相机视角 → (+初始帧和文本指令)给视频扩散模型 → 生成符合新轨迹的视频
    • Cousin Data Training Strategy 表亲数据训练策略
      • 目的:更好地将生成的数据整合到4DGS中
      • 如何理解这里的 Cousin Data:
        • 真实视频的每一帧(比如车辆直行的画面)都有一个对应的模拟帧(比如同一时刻车辆变道的模拟画面)。
        • CDTS将这两类数据按时间顺序一一配对,确保模型同时看到同一时间点下的真实和模拟场景,来帮助它理解两者之间的联系。
    • 损失函数组成
      • 原始数据损失L_{ori}: 监督原始轨迹数据的重建,包含RGB损失、深度损失和SSIM损失
      • 新轨迹数据损失 L_{novel}监督生成的新轨迹数据,仅包含RGB和SSIM损失
      • 正则化损失 L_{reg} 感知特征对齐原始和新轨迹的渲染结果
  • 实验(不同新轨迹视角下的生成视频质量评估)
    NTA-IoU(Novel Trajectory Agent IoU):评估新轨迹视图中前景交通元素(如车辆)的时空连贯性。通过计算渲染图像中检测到的 2D 边界框与通过几何变换投影到新视图的真实 3D 边界框之间的IoU来衡量。
     NTL-IoU(Novel Trajectory Lane IoU):评估新轨迹视图中背景交通元素(如车道线)的时空连贯性的指标。它通过计算渲染车道线与真实车道线之间的mIoU来衡量。

论文2:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

  • 开源代码:https://github.com/GigaAI-research/ReconDreamer
  • 过去工作的问题:在渲染新轨迹(尤其是大视角偏移,如跨多车道)时会出现伪影(ghosting artifacts)和时空不一致性(spatiotemporal incoherence)
  • 核心思想:逐步整合世界模型知识来增强驾驶场景重建
  • ReconDreamer方法:
    • DriveRestorer:用于修复渲染视频中的伪影。用修复数据集(降质视频帧+对应的真值视频帧)训练,使用掩码策略,让网络学习修复能力。
    • 渐进式数据更新策略(Progressive Data Update Strategy)
      • 混合数据集:原始轨迹视频数据集 + 修复后的新轨迹视频数据集
      • 通过逐步扩展新轨迹来生成大范围驾驶视频,并使用 DriveRestorer 修复这些视频,然后将修复后的视频用于更新训练数据集。
  • 实验(超越DriveDreamer4D)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值