51-63 VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning 基于概率规划的端到端自动驾驶 基于概率规划的端到端、矢量驾驶模型VADv2,性能远超同期多模态大语言驾驶模型DriveMLM。
51-62 Autonomous Grand Challenge at the CVPR 2024 Workshop | 自动驾驶挑战赛获奖作品 参赛选手分别在端到端、无图、占用网络等领域提交了自己的解决方案。
51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation 受大模型中RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型,提出了先进的RichHF-18K数据集和多模态RAHF模型。
51-60 CVPR 2024 最佳论文 | Generative Image Dynamics 将傅里叶域中密集、长期的运动建模为频谱体积,并通过渲染模块对从频谱体积转换的运动纹理生成动画,实现单个静止图像的动画。
51-59 CVPR 2024 | ChatSiM:Editable Scene Simulation for Autonomous Driving via Collaborative LLM ChatSim利用了大型语言模型LLM智能体协作框架,采用了一种新颖的多摄像头神经辐射场McNeRF和多摄像头照明估计McLight方法实现了自动驾驶场景可编辑与生成。
51-58 CVPR 2024 Bosch博世出品 | VLP: Vision Language Planning for Autonomous Driving 视觉语言规划VLP模型使ADS具有模仿人类常识的能力,并参与安全运动规划的上下文推理。
51-57 CVPR 2024 | Cam4DOcc:自动驾驶应用中仅摄像机4D占用预测基准 本文提出了一种仅摄像机4D占用预测的新基准Cam4Occ,同时引入端到端时空网络OCFNet,预测当前和未来4D占用。
51-55 CVPR 2024 | AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving 本文利用视觉语言模型VLM、大型语言模型LLM设计了一个自动化数据引擎AIDE。该引擎可以自动识别问题、有效地整理数据、通过自动标注改进模型,并通过生成不同的场景来验证模型。
51-56 CVPR 2024 | UniPAD:A Universal Pre-training Paradigm for Autonomous Driving 自动驾驶的通用预训练范式 UniPAD提出了一种自动驾驶通用的自监督预训练范式,巧妙地将NeRF作为统一的3D渲染解码器,使其能够无缝集成到2D和3D框架中。
51-54 CVPR 2024 | DrivingGaussian:周围动态自动驾驶场景的复合高斯飞溅( Sora能制作动作大片还需要一段时间 ) DrivingGaussian采用复合高斯飞溅进行全局渲染,用于表示周围动态自动驾驶场景,在多运动对象、多相机一致性以及高保真度上实现了优秀的性能。
51-53 CVPR 2024 | DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解 (含模型数据流梳理) DriveWorld在UniAD的基础上又有所成长,提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能。
51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving,自动驾驶通用预测模型 作者提出了通用的大规模自动驾驶视频预测模型GenAD,在实现过程中,进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。
51-50 两万字长文解读ControlNet论文和代码,以及自定义模型训练和图片精确控制生成实验 本文解读了2023最佳论文ControlNet的论文和代码,同时完成了“自定义”数据集训练和图像精确生成控制测试。
51-49 CVPR 2024 | OMG:通过混合控制器实现开放词汇的运动生成 OMG从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中,主要贡献是扩大了模型和数据集大小,以及引入motion ControlNet和混合控制MoC块,实现了文本和运动特征对齐。
51-48 CVPR 2024 | Vlogger: make your dream a vlog 自编剧制作视频博客 为处理复杂的故事情节和多样化的场景,本文提出了一个名为Vlogger的通用AI系统,将长视频生成任务优雅地分解为四个关键阶段,包括 (1) 剧本Script,(2) 演员Actor, (3)制作人ShowMaker 和 (4) 配音员Voicer。
51-47 CVPR 2024 | DynVideo-E:利用动态NeRF对大规模运动和视角变化的视频编辑 DynVideo-E框架首次引入动态NeRF作为视频表示,通过人体姿态引导将视频信息聚合到3D背景空间和3D动态人体空间中,进而能对大规模运动、视图变化和以人为中心的视频进行编辑。
51-46 MCDiff,可控视频合成的运动条件扩散模型 我们引入了 MCDiff 动作条件扩散模型,它从一帧图像和一组笔画开始生成细粒度的可控视频。MCDiff首先利用流补全模型F根据视频帧的语义理解和稀疏运动控制来预测稠密视频运动。然后,扩散预测模型G合成高质量的未来帧,形成输出视频。