自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 软件定义汽车时代,当前智能汽车软件开发模式是什么?

软件定义汽车,EE架构从分布式向中央计算演进。

2024-10-17 14:49:03 427

原创 未来汽车究竟该是什么样子?

未来汽车可以遵从先锋重构美学,从都市活力、智慧灵气、沉侵体验三个维度进行诠释,增加出行体验。

2024-10-16 12:36:34 509 1

原创 51-63 VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning 基于概率规划的端到端自动驾驶

基于概率规划的端到端、矢量驾驶模型VADv2,性能远超同期多模态大语言驾驶模型DriveMLM。

2024-07-17 09:49:20 975 1

原创 51-62 Autonomous Grand Challenge at the CVPR 2024 Workshop | 自动驾驶挑战赛获奖作品

参赛选手分别在端到端、无图、占用网络等领域提交了自己的解决方案。

2024-07-08 10:46:46 1009 1

原创 51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation

受大模型中RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型,提出了先进的RichHF-18K数据集和多模态RAHF模型。

2024-06-26 10:45:07 1509

原创 51-60 CVPR 2024 最佳论文 | Generative Image Dynamics

将傅里叶域中密集、长期的运动建模为频谱体积,并通过渲染模块对从频谱体积转换的运动纹理生成动画,实现单个静止图像的动画。

2024-06-24 10:45:13 1627 1

原创 51-59 CVPR 2024 | ChatSiM:Editable Scene Simulation for Autonomous Driving via Collaborative LLM

ChatSim利用了大型语言模型LLM智能体协作框架,采用了一种新颖的多摄像头神经辐射场McNeRF和多摄像头照明估计McLight方法实现了自动驾驶场景可编辑与生成。

2024-06-14 09:48:57 1024

原创 51-58 CVPR 2024 Bosch博世出品 | VLP: Vision Language Planning for Autonomous Driving

视觉语言规划VLP模型使ADS具有模仿人类常识的能力,并参与安全运动规划的上下文推理。

2024-06-12 10:30:00 1184

原创 51-57 CVPR 2024 | Cam4DOcc:自动驾驶应用中仅摄像机4D占用预测基准

本文提出了一种仅摄像机4D占用预测的新基准Cam4Occ,同时引入端到端时空网络OCFNet,预测当前和未来4D占用。

2024-06-11 10:45:49 2251 1

原创 51-55 CVPR 2024 | AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving

本文利用视觉语言模型VLM、大型语言模型LLM设计了一个自动化数据引擎AIDE。该引擎可以自动识别问题、有效地整理数据、通过自动标注改进模型,并通过生成不同的场景来验证模型。

2024-06-06 10:09:05 972

原创 51-56 CVPR 2024 | UniPAD:A Universal Pre-training Paradigm for Autonomous Driving 自动驾驶的通用预训练范式

UniPAD提出了一种自动驾驶通用的自监督预训练范式,巧妙地将NeRF作为统一的3D渲染解码器,使其能够无缝集成到2D和3D框架中。

2024-06-03 13:54:11 926

原创 51-54 CVPR 2024 | DrivingGaussian:周围动态自动驾驶场景的复合高斯飞溅( Sora能制作动作大片还需要一段时间 )

DrivingGaussian采用复合高斯飞溅进行全局渲染,用于表示周围动态自动驾驶场景,在多运动对象、多相机一致性以及高保真度上实现了优秀的性能。

2024-05-27 13:49:52 1279

原创 51-53 CVPR 2024 | DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解 (含模型数据流梳理)

DriveWorld在UniAD的基础上又有所成长,提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能。

2024-05-21 09:41:16 1384 1

原创 51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving,自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD,在实现过程中,进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

2024-05-18 11:29:57 1204

原创 51-51 CVPR 2024 | Panacea:自动驾驶全景可控视频生成

作者提出了全景可控自动驾驶视频生成模型Panacea,同时也制作了一个新自动驾驶视频数据集Gen-nuScenes。

2024-05-16 16:41:38 1130

原创 51-50 两万字长文解读ControlNet论文和代码,以及自定义模型训练和图片精确控制生成实验

本文解读了2023最佳论文ControlNet的论文和代码,同时完成了“自定义”数据集训练和图像精确生成控制测试。

2024-05-13 14:05:42 1343

原创 51-49 CVPR 2024 | OMG:通过混合控制器实现开放词汇的运动生成

OMG从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中,主要贡献是扩大了模型和数据集大小,以及引入motion ControlNet和混合控制MoC块,实现了文本和运动特征对齐。

2024-05-06 14:31:37 1244

原创 51-48 CVPR 2024 | Vlogger: make your dream a vlog 自编剧制作视频博客

为处理复杂的故事情节和多样化的场景,本文提出了一个名为Vlogger的通用AI系统,将长视频生成任务优雅地分解为四个关键阶段,包括 (1) 剧本Script,(2) 演员Actor, (3)制作人ShowMaker 和 (4) 配音员Voicer。

2024-05-06 10:02:16 1469 1

原创 51-47 CVPR 2024 | DynVideo-E:利用动态NeRF对大规模运动和视角变化的视频编辑

DynVideo-E框架首次引入动态NeRF作为视频表示,通过人体姿态引导将视频信息聚合到3D背景空间和3D动态人体空间中,进而能对大规模运动、视图变化和以人为中心的视频进行编辑。

2024-04-29 13:45:30 1043

原创 51-46 MCDiff,可控视频合成的运动条件扩散模型

我们引入了 MCDiff 动作条件扩散模型,它从一帧图像和一组笔画开始生成细粒度的可控视频。MCDiff首先利用流补全模型F根据视频帧的语义理解和稀疏运动控制来预测稠密视频运动。然后,扩散预测模型G合成高质量的未来帧,形成输出视频。

2024-04-27 10:09:17 660

原创 51-45 Diffuser,生成柔性行为的扩散轨迹规划

Diffuser将规划过程包含在生成建模框架中,以便规划与采样几乎相同。方法的核心在于扩散概率模型,通过迭代去噪轨迹来规划。

2024-04-25 13:45:40 1111

原创 51-44 Generating Long Videos of Dynamic Scenes,生成动态场景长视频

NVIDIA, UC Berkeley联合提出了一个视频生成模型,可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。该论文也是Sora技术报告中提及的32篇之一。

2024-04-24 08:59:45 1139

原创 51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制

DragNUWA,是一种端到端的视频生成模型,可以无缝地结合文本、图像和轨迹输入,从而能够从语义、空间和时间角度进行细粒度和用户友好的控制。

2024-04-22 08:45:31 1302

原创 51-42 NÜWA:女娲,通用的视觉合成多模态预训练模型

通用的多模态预训练模型N̈UWA,可以同时处理不同场景的文本、图像和视频,在文生图、文生视频和视频预测等8 个下游任务上效果惊艳。

2024-04-20 10:52:24 691

原创 51-41 Stable Video Diffusion,高质量视频生成新时代

SVD是一种潜在扩散模型,支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看,本文主要提出了一种高质量、大型视频数据集的制作流程,并提出成功训练视频潜在扩散模型Video LDM的三阶段方法:文本到图像预训练、视频预训练和高质量视频微调。

2024-04-17 08:58:41 1227

原创 51-40 VLDM,基于LDM的高分辨率视频生成

23年4月,英伟达Nvidia联合几所大学发布了带文本条件融合、时空注意力的Video Latent Diffusion Models。通过在压缩的低维潜空间训练扩散模型,实现高质量图像合成并避免过多的计算需求,可用于生成高分辨率且时间连贯的驾驶场景视频,并能够将文本转化为视频进行创意内容创作。

2024-04-15 08:56:16 1414

原创 51-39 华为PixArt-Σ,高质量4K图片生成模型

PixArt-Σ在基础模型PixArt-a上通过提供具有高美感特性和艺术气质的数据集,和从弱到强的训练策略,生成4K图像的能力有效地支持了电影和游戏等行业高质量视觉内容的产生。

2024-04-11 13:45:17 836

原创 51-38 华为PixArt-α,基于DiT架构的低成本文生图模型

华为版文生图PixArt-α模型主打低成本训练,采用Meta提出的DiT架构、模型参数只有0.6B,且只使用了25M数据、12%的Stable Diffusion v1.5训练时长和1%的Raphel训练成本 。效果非常惊艳,质量与当时的 Imagen、SDXL、甚至 Midjourney 相媲美,达到近乎商业的应用标准。

2024-04-10 08:59:08 966

原创 51-37 由浅入深理解 Stable Diffusion 3

SD3,艺术与科技的融合,它不仅能够理解复杂的提示词,还能将这些提示词转化为高质量的图像。 其基于Rectified Flow生成模型,引入谷歌T5-XXL来理解复杂提示词,采用多模态MM-DiT架构,并且将模型参数量扩展为8B,用户输入简单的描述,就能创造出令人惊叹的艺术作品。

2024-04-07 19:26:37 1395

原创 51-36 DiT,视频生成模型Sora背后的核心技术

Diffusion Transformer遵循Vision Transformer最佳实践,是一种结合了DDPM和Transformer优点的新型扩散模型。

2024-04-07 08:58:11 1491

原创 51-35 谷歌绘画模型 Imagen

文生图Imagen模型,当前效果性能超越VQ-GAN-CLIP、LDM、GLIDE 和 DALL-E 2。Imagen主要得益于通用预训练语言模型T5对text的语义编码以及diffusion模型在高保真图片生成性能。

2024-04-02 13:54:49 1003

原创 51-34 DALLE2 结合预训练CLIP和扩散模型实现图像生成

DALLE2模型包括三部分,CLIP text/img encoder、先验模块prior和img decoder。主要作用是根据输入文本 text 描述生成原创性、真实性很高的图片,而且可以任意组合概念、属性和风格。

2024-04-01 08:19:07 986

原创 51-33 LDM 潜在扩散模型论文精读 + DDPM 扩散模型代码实现

传统扩散模型 DM 是作用在原始像素级上,Latent Diffusion Models 潜在扩散模型 LDM 则是先对图片进行压缩,将图片表示为潜在空间(Latent Space,而不是像素空间),然后输入扩散模型。LDM 模型在主干网络 UNet 中引入 Cross-Attention,可以输入多模态,实现灵活的图片生成控制。

2024-03-22 13:48:07 2423 1

原创 51-32 CVPR’24 | 3DSFLabelling,通过伪自动标注增强 3D 场景流估计

3DSFLabelling 提出3D 场景自动标注新框架,以及 3D 场景流数据增强方法,引入各种场景运动模式,显著提高了3D场景流标签多样性。在没有手工标注情况下,性能优于以前任何有监督和无监督的 3D 重建模型。

2024-03-18 17:08:45 1141

原创 51-31 CVPR’24 | VastGaussian,3D高斯大型场景重建

VastGaussian模型,实现了基于 3D Gaussians Spltting进行大型场景高保真重建和实时渲染。

2024-03-16 13:52:42 1952 2

原创 51-30 World Model | 自动驾驶的世界模型:综述

世界模型已经成为一种变革方法,使自动驾驶系统能够综合和解释大量传感器数据,从而预测潜在的未来情景并弥补信息缺口。本文涵盖了世界模型理论基础、实际应用以及以未来展望。

2024-03-14 17:49:58 2260

原创 51-29 CVPR 2024 | BEV-Planner:开环端到端自动驾驶中自车状态是你所需要的一切吗?

​今天要精读的论文是来自NVIDA和南京大学的工作。蛮幸运的,该论文提出了很多思考,证明了很多最优paper在落地上车方面的无效性。读后最大的收获是咱们对待新方法要谨慎,进一步,该方法能否成为自动驾驶的最佳实践更要审慎。

2024-03-13 13:45:48 621

原创 51-27 DirveVLM:自动驾驶与大型视觉语言模型的融合

本文偏工程性质,以点带面,可以窥视到很多的东西。DriveVLM是一种新颖的自动驾驶系统,旨在针对场景理解挑战,利用最近的视觉语言模型VLM,在视觉理解和推理方面表现出非凡的优势。DriveVLM模型具有三个关键模块:场景描述、场景分析和分层规划。

2024-03-07 08:26:18 1422

原创 51-26 DriveMLM:多模态大模型与自动驾驶规划对齐

DriveMLM是来自上海AILab、港中文、商汤、斯坦福、南京大学和清华大学的工作。该模型使用各种传感器(如相机、激光雷达)、驾驶规则和用户指令作为输入,采用多模态LLM对AD系统的行为规划进行建模,做出驾驶决策并提供解释。该模型可以用于闭环自动驾驶,在Apollo等现有AD系统中即插即用。

2024-03-04 19:22:25 1562

原创 51-28 Sora 文生视频背后的核心技术

本文沿着Transformer、ViT、CLIP、DALLE、DiT模型,介绍了Sora背后的核心技术,并延展性的介绍了视频理解、多模态大模型、论文复现和微调等内容。

2024-02-26 18:45:14 1445

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除