深圳季连AIgraphX
发展通用人工智能,让未来出行与数字物流更加智能和安全
展开
-
51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation
受大模型中RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型,提出了先进的RichHF-18K数据集和多模态RAHF模型。原创 2024-06-26 10:45:07 · 1013 阅读 · 0 评论 -
51-60 CVPR 2024 最佳论文 | Generative Image Dynamics
将傅里叶域中密集、长期的运动建模为频谱体积,并通过渲染模块对从频谱体积转换的运动纹理生成动画,实现单个静止图像的动画。原创 2024-06-24 10:45:13 · 1207 阅读 · 1 评论 -
51-59 CVPR 2024 | ChatSiM:Editable Scene Simulation for Autonomous Driving via Collaborative LLM
ChatSim利用了大型语言模型LLM智能体协作框架,采用了一种新颖的多摄像头神经辐射场McNeRF和多摄像头照明估计McLight方法实现了自动驾驶场景可编辑与生成。原创 2024-06-14 09:48:57 · 854 阅读 · 0 评论 -
51-58 CVPR 2024 Bosch博世出品 | VLP: Vision Language Planning for Autonomous Driving
视觉语言规划VLP模型使ADS具有模仿人类常识的能力,并参与安全运动规划的上下文推理。原创 2024-06-12 10:30:00 · 984 阅读 · 0 评论 -
51-57 CVPR 2024 | Cam4DOcc:自动驾驶应用中仅摄像机4D占用预测基准
本文提出了一种仅摄像机4D占用预测的新基准Cam4Occ,同时引入端到端时空网络OCFNet,预测当前和未来4D占用。原创 2024-06-11 10:45:49 · 1988 阅读 · 1 评论 -
51-56 CVPR 2024 | UniPAD:A Universal Pre-training Paradigm for Autonomous Driving 自动驾驶的通用预训练范式
UniPAD提出了一种自动驾驶通用的自监督预训练范式,巧妙地将NeRF作为统一的3D渲染解码器,使其能够无缝集成到2D和3D框架中。原创 2024-06-03 13:54:11 · 784 阅读 · 0 评论 -
51-55 CVPR 2024 | AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving
本文利用视觉语言模型VLM、大型语言模型LLM设计了一个自动化数据引擎AIDE。该引擎可以自动识别问题、有效地整理数据、通过自动标注改进模型,并通过生成不同的场景来验证模型。原创 2024-06-06 10:09:05 · 800 阅读 · 0 评论 -
51-54 CVPR 2024 | DrivingGaussian:周围动态自动驾驶场景的复合高斯飞溅( Sora能制作动作大片还需要一段时间 )
DrivingGaussian采用复合高斯飞溅进行全局渲染,用于表示周围动态自动驾驶场景,在多运动对象、多相机一致性以及高保真度上实现了优秀的性能。原创 2024-05-27 13:49:52 · 1064 阅读 · 0 评论 -
51-53 CVPR 2024 | DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解 (含模型数据流梳理)
DriveWorld在UniAD的基础上又有所成长,提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能。原创 2024-05-21 09:41:16 · 1173 阅读 · 1 评论 -
51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving,自动驾驶通用预测模型
作者提出了通用的大规模自动驾驶视频预测模型GenAD,在实现过程中,进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。原创 2024-05-18 11:29:57 · 996 阅读 · 0 评论 -
51-51 CVPR 2024 | Panacea:自动驾驶全景可控视频生成
作者提出了全景可控自动驾驶视频生成模型Panacea,同时也制作了一个新自动驾驶视频数据集Gen-nuScenes。原创 2024-05-16 16:41:38 · 832 阅读 · 0 评论 -
51-50 两万字长文解读ControlNet论文和代码,以及自定义模型训练和图片精确控制生成实验
本文解读了2023最佳论文ControlNet的论文和代码,同时完成了“自定义”数据集训练和图像精确生成控制测试。原创 2024-05-13 14:05:42 · 971 阅读 · 0 评论 -
51-40 VLDM,基于LDM的高分辨率视频生成
23年4月,英伟达Nvidia联合几所大学发布了带文本条件融合、时空注意力的Video Latent Diffusion Models。通过在压缩的低维潜空间训练扩散模型,实现高质量图像合成并避免过多的计算需求,可用于生成高分辨率且时间连贯的驾驶场景视频,并能够将文本转化为视频进行创意内容创作。原创 2024-04-15 08:56:16 · 1315 阅读 · 0 评论 -
51-49 CVPR 2024 | OMG:通过混合控制器实现开放词汇的运动生成
OMG从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中,主要贡献是扩大了模型和数据集大小,以及引入motion ControlNet和混合控制MoC块,实现了文本和运动特征对齐。原创 2024-05-06 14:31:37 · 1106 阅读 · 0 评论 -
51-48 CVPR 2024 | Vlogger: make your dream a vlog 自编剧制作视频博客
为处理复杂的故事情节和多样化的场景,本文提出了一个名为Vlogger的通用AI系统,将长视频生成任务优雅地分解为四个关键阶段,包括 (1) 剧本Script,(2) 演员Actor, (3)制作人ShowMaker 和 (4) 配音员Voicer。原创 2024-05-06 10:02:16 · 1347 阅读 · 1 评论 -
51-46 MCDiff,可控视频合成的运动条件扩散模型
我们引入了 MCDiff 动作条件扩散模型,它从一帧图像和一组笔画开始生成细粒度的可控视频。MCDiff首先利用流补全模型F根据视频帧的语义理解和稀疏运动控制来预测稠密视频运动。然后,扩散预测模型G合成高质量的未来帧,形成输出视频。原创 2024-04-27 10:09:17 · 595 阅读 · 0 评论 -
51-47 CVPR 2024 | DynVideo-E:利用动态NeRF对大规模运动和视角变化的视频编辑
DynVideo-E框架首次引入动态NeRF作为视频表示,通过人体姿态引导将视频信息聚合到3D背景空间和3D动态人体空间中,进而能对大规模运动、视图变化和以人为中心的视频进行编辑。原创 2024-04-29 13:45:30 · 860 阅读 · 0 评论 -
51-45 Diffuser,生成柔性行为的扩散轨迹规划
Diffuser将规划过程包含在生成建模框架中,以便规划与采样几乎相同。方法的核心在于扩散概率模型,通过迭代去噪轨迹来规划。原创 2024-04-25 13:45:40 · 943 阅读 · 0 评论 -
51-44 Generating Long Videos of Dynamic Scenes,生成动态场景长视频
NVIDIA, UC Berkeley联合提出了一个视频生成模型,可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。该论文也是Sora技术报告中提及的32篇之一。原创 2024-04-24 08:59:45 · 1084 阅读 · 0 评论 -
51-41 Stable Video Diffusion,高质量视频生成新时代
SVD是一种潜在扩散模型,支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看,本文主要提出了一种高质量、大型视频数据集的制作流程,并提出成功训练视频潜在扩散模型Video LDM的三阶段方法:文本到图像预训练、视频预训练和高质量视频微调。原创 2024-04-17 08:58:41 · 1102 阅读 · 0 评论 -
51-42 NÜWA:女娲,通用的视觉合成多模态预训练模型
通用的多模态预训练模型N̈UWA,可以同时处理不同场景的文本、图像和视频,在文生图、文生视频和视频预测等8 个下游任务上效果惊艳。原创 2024-04-20 10:52:24 · 601 阅读 · 0 评论 -
51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制
DragNUWA,是一种端到端的视频生成模型,可以无缝地结合文本、图像和轨迹输入,从而能够从语义、空间和时间角度进行细粒度和用户友好的控制。原创 2024-04-22 08:45:31 · 1239 阅读 · 0 评论 -
51-39 华为PixArt-Σ,高质量4K图片生成模型
PixArt-Σ在基础模型PixArt-a上通过提供具有高美感特性和艺术气质的数据集,和从弱到强的训练策略,生成4K图像的能力有效地支持了电影和游戏等行业高质量视觉内容的产生。原创 2024-04-11 13:45:17 · 750 阅读 · 0 评论 -
51-38 华为PixArt-α,基于DiT架构的低成本文生图模型
华为版文生图PixArt-α模型主打低成本训练,采用Meta提出的DiT架构、模型参数只有0.6B,且只使用了25M数据、12%的Stable Diffusion v1.5训练时长和1%的Raphel训练成本 。效果非常惊艳,质量与当时的 Imagen、SDXL、甚至 Midjourney 相媲美,达到近乎商业的应用标准。原创 2024-04-10 08:59:08 · 859 阅读 · 0 评论 -
51-37 由浅入深理解 Stable Diffusion 3
SD3,艺术与科技的融合,它不仅能够理解复杂的提示词,还能将这些提示词转化为高质量的图像。 其基于Rectified Flow生成模型,引入谷歌T5-XXL来理解复杂提示词,采用多模态MM-DiT架构,并且将模型参数量扩展为8B,用户输入简单的描述,就能创造出令人惊叹的艺术作品。原创 2024-04-07 19:26:37 · 1196 阅读 · 0 评论 -
51-36 DiT,视频生成模型Sora背后的核心技术
Diffusion Transformer遵循Vision Transformer最佳实践,是一种结合了DDPM和Transformer优点的新型扩散模型。原创 2024-04-07 08:58:11 · 1346 阅读 · 0 评论 -
51-35 谷歌绘画模型 Imagen
文生图Imagen模型,当前效果性能超越VQ-GAN-CLIP、LDM、GLIDE 和 DALL-E 2。Imagen主要得益于通用预训练语言模型T5对text的语义编码以及diffusion模型在高保真图片生成性能。原创 2024-04-02 13:54:49 · 916 阅读 · 0 评论 -
51-34 DALLE2 结合预训练CLIP和扩散模型实现图像生成
DALLE2模型包括三部分,CLIP text/img encoder、先验模块prior和img decoder。主要作用是根据输入文本 text 描述生成原创性、真实性很高的图片,而且可以任意组合概念、属性和风格。原创 2024-04-01 08:19:07 · 848 阅读 · 0 评论 -
51-33 LDM 潜在扩散模型论文精读 + DDPM 扩散模型代码实现
传统扩散模型 DM 是作用在原始像素级上,Latent Diffusion Models 潜在扩散模型 LDM 则是先对图片进行压缩,将图片表示为潜在空间(Latent Space,而不是像素空间),然后输入扩散模型。LDM 模型在主干网络 UNet 中引入 Cross-Attention,可以输入多模态,实现灵活的图片生成控制。原创 2024-03-22 13:48:07 · 1853 阅读 · 1 评论 -
51-30 World Model | 自动驾驶的世界模型:综述
世界模型已经成为一种变革方法,使自动驾驶系统能够综合和解释大量传感器数据,从而预测潜在的未来情景并弥补信息缺口。本文涵盖了世界模型理论基础、实际应用以及以未来展望。原创 2024-03-14 17:49:58 · 1960 阅读 · 0 评论 -
51-31 CVPR’24 | VastGaussian,3D高斯大型场景重建
VastGaussian模型,实现了基于 3D Gaussians Spltting进行大型场景高保真重建和实时渲染。原创 2024-03-16 13:52:42 · 1669 阅读 · 2 评论 -
51-32 CVPR’24 | 3DSFLabelling,通过伪自动标注增强 3D 场景流估计
3DSFLabelling 提出3D 场景自动标注新框架,以及 3D 场景流数据增强方法,引入各种场景运动模式,显著提高了3D场景流标签多样性。在没有手工标注情况下,性能优于以前任何有监督和无监督的 3D 重建模型。原创 2024-03-18 17:08:45 · 1100 阅读 · 0 评论 -
51-29 CVPR 2024 | BEV-Planner:开环端到端自动驾驶中自车状态是你所需要的一切吗?
今天要精读的论文是来自NVIDA和南京大学的工作。蛮幸运的,该论文提出了很多思考,证明了很多最优paper在落地上车方面的无效性。读后最大的收获是咱们对待新方法要谨慎,进一步,该方法能否成为自动驾驶的最佳实践更要审慎。原创 2024-03-13 13:45:48 · 337 阅读 · 0 评论 -
51-28 Sora 文生视频背后的核心技术
本文沿着Transformer、ViT、CLIP、DALLE、DiT模型,介绍了Sora背后的核心技术,并延展性的介绍了视频理解、多模态大模型、论文复现和微调等内容。原创 2024-02-26 18:45:14 · 1316 阅读 · 0 评论 -
51-27 DirveVLM:自动驾驶与大型视觉语言模型的融合
本文偏工程性质,以点带面,可以窥视到很多的东西。DriveVLM是一种新颖的自动驾驶系统,旨在针对场景理解挑战,利用最近的视觉语言模型VLM,在视觉理解和推理方面表现出非凡的优势。DriveVLM模型具有三个关键模块:场景描述、场景分析和分层规划。原创 2024-03-07 08:26:18 · 1259 阅读 · 0 评论 -
51-26 DriveMLM:多模态大模型与自动驾驶规划对齐
DriveMLM是来自上海AILab、港中文、商汤、斯坦福、南京大学和清华大学的工作。该模型使用各种传感器(如相机、激光雷达)、驾驶规则和用户指令作为输入,采用多模态LLM对AD系统的行为规划进行建模,做出驾驶决策并提供解释。该模型可以用于闭环自动驾驶,在Apollo等现有AD系统中即插即用。原创 2024-03-04 19:22:25 · 1163 阅读 · 0 评论 -
51-22 Deformable DETR: Deformable Transformers for End-to-End Object Detection 论文精读
最近提出的DETR在展示良好性能的同时,消除了对许多手工设计的物体检测组件的需要。然而,由于Transformer注意力模块在处理图像特征映射时的局限性,它的收敛速度慢,特征空间分辨率有限。为了缓解这些问题,我们提出了可变形的DETR,其注意力模块只关注参考周围的一小部分关键采样点。可变形的DETR可以比DETR获得更好的性能(特别是在小物体上),训练次数减少10倍。在COCO基准上的大量实验证明了我们的方法的有效性。原创 2024-02-21 08:51:35 · 859 阅读 · 0 评论 -
51-23 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection 论文精读
单帧数据包含有限信息,这限制了现有基于视觉的多摄像头 3D 对象检测范式的性能。BEVDet4D 在BEVDet基础上添加了少量的改动,以最大限度地保持原有范式的优雅性,主要的目的是完成两帧BEV特征的融合。具体而言就是把前一帧的BEV特征根据自车的运动信息进行特征在世界坐标系中的对齐,融合时使用的是最简单的特征Concat。这里其实是把真正的特征融合推理过程留给BEV Encoder来完成。原创 2024-02-21 08:50:29 · 1003 阅读 · 0 评论 -
51-2 万字长文,深度解读端到端自动驾驶的挑战和前沿
自动驾驶社区见证了采用端到端算法框架的快速增长,这些方法利用原始传感器输入来生成车辆运动规划,而不是专注于检测和运动预测等单个任务。我们对250多篇论文进行了全面分析,深入研究了几个关键挑战,包括多模态、可解释性、因果混淆、稳健性和世界模型等,还讨论了大模型和视觉预训练的当前进展,以及如何将这些技术纳入端到端的自驾框架。原创 2024-02-19 13:00:29 · 2457 阅读 · 1 评论 -
51 -25 OccNet:Scene as Occupancy 场景作为占用
本文介绍了一种将物体表示为 3D Occupancy的新方法,以描述三维场景,并用于自动驾驶中检测、语义分割和规划任务。原创 2024-02-06 13:14:10 · 1655 阅读 · 0 评论