CVPR2025自动驾驶世界模型论文笔记：DriveDreamer4D, ReconDreamer-CSDN博客

本文链接：https://blog.csdn.net/xying_chloe/article/details/147635730

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

论文1：DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

开源代码：GitHub - GigaAI-research/DriveDreamer4D: [CVPR 2025] DriveDreamer4D
核心思想：用世界模型（world models）的先验知识来增强 4D 场景表示
为什么需要世界模型？
- 现有的闭环仿真主要用Nerf、3DGS等重建技术，生成场景受限于训练数据分布（比如训练数据大多数是直行，那重建出来的大多也是直行的场景），所以在复杂操作（如变道、加速、减速）时表现不佳。然而世界模型能够生成多样化的驾驶视频。
使用 4DGS（3DGS+时间维度）表示4D场景
- 把场景中的物体表示为一堆高斯球（有椭球形状、位置、透明度、颜色）
- 用时间场模块预测每个timestep的高斯球变化情况
- 通过2D投影，算每个像素的颜色（透明度*颜色*高斯球权重），得到图像
- 损失函数：RGB 损失、深度损失和 SSIM 损失（结构相似性指数，度量两幅图像间的结构相似性）
使用扩散模型实现视频生成的世界模型
DriveDreamer4D方法
- 由两部分组成：新型轨迹生成模块（NTGM）和表亲数据训练策略（CDTS）
- Novel Trajectory Video Generation 新型轨迹生成模块
  - 文本指令生成多样化复杂轨迹（text-to-trajectory）→ 安全性评估（是否在可行驶区域内，避免与其他交通参与者碰撞）→ 将新轨迹的3D box、HDMap投影到相机视角 → （+初始帧和文本指令）给视频扩散模型 → 生成符合新轨迹的视频
- Cousin Data Training Strategy 表亲数据训练策略
  - 目的：更好地将生成的数据整合到4DGS中
  - 如何理解这里的 Cousin Data：
    - 真实视频的每一帧（比如车辆直行的画面）都有一个对应的模拟帧（比如同一时刻车辆变道的模拟画面）。
    - CDTS将这两类数据按时间顺序一一配对，确保模型同时看到同一时间点下的真实和模拟场景，来帮助它理解两者之间的联系。
- 损失函数组成
  - 原始数据损失 $L_{ori}$ ： 监督原始轨迹数据的重建，包含RGB损失、深度损失和SSIM损失
  - 新轨迹数据损失 $L_{novel}$ ：监督生成的新轨迹数据，仅包含RGB和SSIM损失
  - 正则化损失 $L_{reg}$ ： 感知特征对齐原始和新轨迹的渲染结果
实验（不同新轨迹视角下的生成视频质量评估）
NTA-IoU（Novel Trajectory Agent IoU）：评估新轨迹视图中前景交通元素（如车辆）的时空连贯性。通过计算渲染图像中检测到的 2D 边界框与通过几何变换投影到新视图的真实 3D 边界框之间的IoU来衡量。
NTL-IoU（Novel Trajectory Lane IoU）：评估新轨迹视图中背景交通元素（如车道线）的时空连贯性的指标。它通过计算渲染车道线与真实车道线之间的mIoU来衡量。

论文2：ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

开源代码：https://github.com/GigaAI-research/ReconDreamer
过去工作的问题：在渲染新轨迹（尤其是大视角偏移，如跨多车道）时会出现伪影（ghosting artifacts）和时空不一致性（spatiotemporal incoherence）
核心思想：逐步整合世界模型知识来增强驾驶场景重建
ReconDreamer方法：
- DriveRestorer：用于修复渲染视频中的伪影。用修复数据集（降质视频帧+对应的真值视频帧）训练，使用掩码策略，让网络学习修复能力。
- 渐进式数据更新策略（Progressive Data Update Strategy）
  - 混合数据集：原始轨迹视频数据集 + 修复后的新轨迹视频数据集
  - 通过逐步扩展新轨迹来生成大范围驾驶视频，并使用 DriveRestorer 修复这些视频，然后将修复后的视频用于更新训练数据集。
实验（超越DriveDreamer4D）