深圳季连AIgraphX
发展通用人工智能,让未来出行和数字物流更加智能和安全
展开
-
51-41 Stable Video Diffusion,高质量视频生成新时代
SVD是一种潜在扩散模型,支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看,本文主要提出了一种高质量、大型视频数据集的制作流程,并提出成功训练视频潜在扩散模型Video LDM的三阶段方法:文本到图像预训练、视频预训练和高质量视频微调。原创 2024-04-17 08:58:41 · 962 阅读 · 0 评论 -
51-42 NÜWA:女娲,通用的视觉合成多模态预训练模型
通用的多模态预训练模型N̈UWA,可以同时处理不同场景的文本、图像和视频,在文生图、文生视频和视频预测等8 个下游任务上效果惊艳。原创 2024-04-20 10:52:24 · 556 阅读 · 0 评论 -
51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制
DragNUWA,是一种端到端的视频生成模型,可以无缝地结合文本、图像和轨迹输入,从而能够从语义、空间和时间角度进行细粒度和用户友好的控制。原创 2024-04-22 08:45:31 · 1169 阅读 · 0 评论 -
51-39 华为PixArt-Σ,高质量4K图片生成模型
PixArt-Σ在基础模型PixArt-a上通过提供具有高美感特性和艺术气质的数据集,和从弱到强的训练策略,生成4K图像的能力有效地支持了电影和游戏等行业高质量视觉内容的产生。原创 2024-04-11 13:45:17 · 709 阅读 · 0 评论 -
51-38 华为PixArt-α,基于DiT架构的低成本文生图模型
华为版文生图PixArt-α模型主打低成本训练,采用Meta提出的DiT架构、模型参数只有0.6B,且只使用了25M数据、12%的Stable Diffusion v1.5训练时长和1%的Raphel训练成本 。效果非常惊艳,质量与当时的 Imagen、SDXL、甚至 Midjourney 相媲美,达到近乎商业的应用标准。原创 2024-04-10 08:59:08 · 780 阅读 · 0 评论 -
51-37 由浅入深理解 Stable Diffusion 3
SD3,艺术与科技的融合,它不仅能够理解复杂的提示词,还能将这些提示词转化为高质量的图像。 其基于Rectified Flow生成模型,引入谷歌T5-XXL来理解复杂提示词,采用多模态MM-DiT架构,并且将模型参数量扩展为8B,用户输入简单的描述,就能创造出令人惊叹的艺术作品。原创 2024-04-07 19:26:37 · 1042 阅读 · 0 评论 -
51-36 DiT,视频生成模型Sora背后的核心技术
Diffusion Transformer遵循Vision Transformer最佳实践,是一种结合了DDPM和Transformer优点的新型扩散模型。原创 2024-04-07 08:58:11 · 1246 阅读 · 0 评论 -
51-35 谷歌绘画模型 Imagen
文生图Imagen模型,当前效果性能超越VQ-GAN-CLIP、LDM、GLIDE 和 DALL-E 2。Imagen主要得益于通用预训练语言模型T5对text的语义编码以及diffusion模型在高保真图片生成性能。原创 2024-04-02 13:54:49 · 856 阅读 · 0 评论 -
51-34 DALLE2 结合预训练CLIP和扩散模型实现图像生成
DALLE2模型包括三部分,CLIP text/img encoder、先验模块prior和img decoder。主要作用是根据输入文本 text 描述生成原创性、真实性很高的图片,而且可以任意组合概念、属性和风格。原创 2024-04-01 08:19:07 · 749 阅读 · 0 评论 -
51-33 LDM 潜在扩散模型论文精读 + DDPM 扩散模型代码实现
传统扩散模型 DM 是作用在原始像素级上,Latent Diffusion Models 潜在扩散模型 LDM 则是先对图片进行压缩,将图片表示为潜在空间(Latent Space,而不是像素空间),然后输入扩散模型。LDM 模型在主干网络 UNet 中引入 Cross-Attention,可以输入多模态,实现灵活的图片生成控制。原创 2024-03-22 13:48:07 · 1149 阅读 · 1 评论 -
51-30 World Model | 自动驾驶的世界模型:综述
世界模型已经成为一种变革方法,使自动驾驶系统能够综合和解释大量传感器数据,从而预测潜在的未来情景并弥补信息缺口。本文涵盖了世界模型理论基础、实际应用以及以未来展望。原创 2024-03-14 17:49:58 · 1478 阅读 · 0 评论 -
51-31 CVPR’24 | VastGaussian,3D高斯大型场景重建
VastGaussian模型,实现了基于 3D Gaussians Spltting进行大型场景高保真重建和实时渲染。原创 2024-03-16 13:52:42 · 1430 阅读 · 1 评论 -
51-32 CVPR’24 | 3DSFLabelling,通过伪自动标注增强 3D 场景流估计
3DSFLabelling 提出3D 场景自动标注新框架,以及 3D 场景流数据增强方法,引入各种场景运动模式,显著提高了3D场景流标签多样性。在没有手工标注情况下,性能优于以前任何有监督和无监督的 3D 重建模型。原创 2024-03-18 17:08:45 · 1071 阅读 · 0 评论 -
51-29 CVPR’24 | 开环端到端自动驾驶中自车状态是你所需要的一切吗?
今天要精读的论文是来自NVIDA和南京大学的工作。蛮幸运的,该论文提出了很多思考,证明了很多最优paper在落地上车方面的无效性。读后最大的收获是咱们对待新方法要谨慎,进一步,该方法能否成为自动驾驶的最佳实践更要审慎。原创 2024-03-13 13:45:48 · 171 阅读 · 0 评论 -
51-28 Sora 文生视频背后的核心技术
本文沿着Transformer、ViT、CLIP、DALLE、DiT模型,介绍了Sora背后的核心技术,并延展性的介绍了视频理解、多模态大模型、论文复现和微调等内容。原创 2024-02-26 18:45:14 · 1240 阅读 · 0 评论 -
51-27 DirveVLM:自动驾驶与大型视觉语言模型的融合
本文偏工程性质,以点带面,可以窥视到很多的东西。DriveVLM是一种新颖的自动驾驶系统,旨在针对场景理解挑战,利用最近的视觉语言模型VLM,在视觉理解和推理方面表现出非凡的优势。DriveVLM模型具有三个关键模块:场景描述、场景分析和分层规划。原创 2024-03-07 08:26:18 · 1178 阅读 · 0 评论 -
51-26 DriveMLM:多模态大模型与自动驾驶规划对齐
DriveMLM是来自上海AILab、港中文、商汤、斯坦福、南京大学和清华大学的工作。该模型使用各种传感器(如相机、激光雷达)、驾驶规则和用户指令作为输入,采用多模态LLM对AD系统的行为规划进行建模,做出驾驶决策并提供解释。该模型可以用于闭环自动驾驶,在Apollo等现有AD系统中即插即用。原创 2024-03-04 19:22:25 · 977 阅读 · 0 评论 -
51-22 Deformable DETR: Deformable Transformers for End-to-End Object Detection 论文精读
最近提出的DETR在展示良好性能的同时,消除了对许多手工设计的物体检测组件的需要。然而,由于Transformer注意力模块在处理图像特征映射时的局限性,它的收敛速度慢,特征空间分辨率有限。为了缓解这些问题,我们提出了可变形的DETR,其注意力模块只关注参考周围的一小部分关键采样点。可变形的DETR可以比DETR获得更好的性能(特别是在小物体上),训练次数减少10倍。在COCO基准上的大量实验证明了我们的方法的有效性。原创 2024-02-21 08:51:35 · 841 阅读 · 0 评论 -
51-23 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection 论文精读
单帧数据包含有限信息,这限制了现有基于视觉的多摄像头 3D 对象检测范式的性能。BEVDet4D 在BEVDet基础上添加了少量的改动,以最大限度地保持原有范式的优雅性,主要的目的是完成两帧BEV特征的融合。具体而言就是把前一帧的BEV特征根据自车的运动信息进行特征在世界坐标系中的对齐,融合时使用的是最简单的特征Concat。这里其实是把真正的特征融合推理过程留给BEV Encoder来完成。原创 2024-02-21 08:50:29 · 906 阅读 · 0 评论 -
51-2 万字长文,深度解读端到端自动驾驶的挑战和前沿
自动驾驶社区见证了采用端到端算法框架的快速增长,这些方法利用原始传感器输入来生成车辆运动规划,而不是专注于检测和运动预测等单个任务。我们对250多篇论文进行了全面分析,深入研究了几个关键挑战,包括多模态、可解释性、因果混淆、稳健性和世界模型等,还讨论了大模型和视觉预训练的当前进展,以及如何将这些技术纳入端到端的自驾框架。原创 2024-02-19 13:00:29 · 1854 阅读 · 0 评论 -
51 -25 Scene as Occupancy,场景作为占用 论文精读
本文介绍了一种将物体表示为 3D Occupancy的新方法,以描述三维场景,并用于自动驾驶中检测、语义分割和规划任务。原创 2024-02-06 13:14:10 · 1552 阅读 · 0 评论 -
51-24 BEVFormer、BEVFormer v2,Occupancy占用网络灵感源泉 论文精读
BEVFormer 是一个纯视觉方案,通过空间和时间Deformable Attention,基本上奠定了当前自动驾驶纯视觉感知基本框架。原创 2024-02-03 08:48:57 · 947 阅读 · 0 评论 -
51-21 LSS (Lift,Splat,Shoot) ,实现 BEV 感知的开山之作 论文精读
本文提出了一种新的端到端体系结构,该体系结构直接从任意数量的摄像机中提取给定图像数据的场景BEV表示。其核心思想是将每个图像单独“lift”为每个相机的特征视锥体,然后将所有视锥体“splat”成栅格化BEV网格。模型不仅能够学习如何表示图像,而且还能够学习如何将来自所有相机的预测融合到场景单个表示中。原创 2024-01-30 17:58:34 · 1174 阅读 · 0 评论 -
51-18 视频理解串讲— MViTv2:Improved Multiscale Vision transformers for Classification and Detection 论文精读
在本文中,作者研究并试图将多尺度视觉transformer(MViTv2)作为图像、视频分类和目标检测的统一架构,结合了分解的相对位置嵌入和残差池化连接,提出了一个改进的MViT版本。原创 2024-01-30 17:56:25 · 948 阅读 · 0 评论 -
51-17 视频理解串讲— MViT,Multiscale Vision Transformer 论文精读
通过将多尺度、层次性特征的开创性思想与transformer模型联系起来,提出了用于视频和图像识别的多尺度视觉transformer,MViT。它是建立在stage的核心概念之上,每个stage由多个具有特定时空分辨率和通道维度的Transformer block组成,其主要思想是逐步扩展信道容量,同时从输入到输出网络池化时空分辨率。原创 2024-01-27 12:25:41 · 1505 阅读 · 0 评论 -
51-16 FusionAD 用于自动驾驶预测与规划任务的多模态融合论文精读
FusionAD,基于BEV的多模态、多任务、端到端自动驾驶模型,专注于自动驾驶预测和规划任务,性能超越2023 CVPR最佳论文UniAD模型。原创 2024-01-23 13:20:00 · 1197 阅读 · 0 评论 -
51-15 视频理解串讲—TimeSformer (Is Space-Time Attention All You Need for Video Understanding) 论文精读
Facebook AI提出了一种称为TimeSformer视频理解的新架构,这个架构完全基于transformer,不使用卷积层。它通过分别对视频的时间和空间维度应用自注意力机制,能有效地捕捉动作的时空特征。原创 2024-01-24 19:05:09 · 1447 阅读 · 0 评论 -
51-14 Retentive Network,RetNet 多尺度保留机制序列建模论文精读
RetNet 提出了多尺度保留机制序列建模,该机制支持三种计算范式,即并行、循环和分块循环。RetNet有更好的全局注意力建模、高效的计算效率、对遮挡的鲁棒性、支持基于注意力的图像生成、与置信度相关的门控机制和多任务学习等特点,对不同视觉任务可以共享历史注意力记忆,可以同时进行分类、分割、检测等任务。RetNet在视觉领域应该有广阔的应用前景。原创 2024-01-17 16:48:12 · 994 阅读 · 0 评论 -
51-13 多模态论文串讲—BEiTv3,Image as a Foreign Language:BEiT Pretraining for All Vision and Vision-Lan论文精读
BEIT-3的核心思想是将图像建模为一种语言,这样我们就可以对图像、文本以及图像-文本对进行统一的maskmodeling。Multi-way transformer模型可以有效地完成不同的视觉和视觉语言任务,使其成为通用建模的一个有效选择。同时,本文也对多模态大模型的发展作了一个简单的总结。原创 2024-01-13 23:18:33 · 1321 阅读 · 0 评论 -
51-12 多模态论文串讲—BLIP (Bootstrapping Language-Image Pre-training) 论文精读
BLIP,用Capfilter生成更多更好的数据,然后给别的模型做训练用。你可以拿这个数据去训练VLMo、训练CoCA和训练BEiT3模型,去训练各种各样的多模的模型,因为它的目的,就是生成更好的数据。BLIP是一个非常通用的工具。原创 2024-01-13 18:49:00 · 1216 阅读 · 0 评论 -
51-11 多模态论文串讲—VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts 论文精读
VLMo 是一种多模态 Transformer 模型,即Mixture-of-Modality-Experts ,MoME,混合多模态专家。怎么理解呢?主流 VLP 模型分为两种,一种是双塔结构 (Dual Encoder),主要用来做多模态检索任务;一种是单塔结构 (Fusion Encoder),主要用来做多模态分类任务。VLMo 相当于是一个混合专家 Transformer 模型,预训练完成后,使用时既可以是双塔结构实现高效的图像文本检索,又可以是单塔结构成为分类任务。原创 2024-01-13 14:28:15 · 1109 阅读 · 0 评论 -
51-10 多模态论文串讲—ALBEF,Align before Fuse: Vision and Language Representation Learning with Momentum论文精读
ALBEF 将多模态对比学习的思路引入到了多模态模型之中,实现了多模态对比学习和多模态融合学习的统一;学习同时提出了动量蒸馏,在一定程度上解决了大规模多模态数据的噪声问题,可以作为现阶段多模态任务的一个新BaseLine方案。原创 2024-01-12 18:20:05 · 654 阅读 · 1 评论 -
51-8 GPT,GPT2,GPT3 论文精读
GPT系列让大家发现大模型是可以大力出奇迹的。原创 2024-01-11 19:59:06 · 1513 阅读 · 0 评论 -
51-5 Transformer 论文精读
编码器、解码器、多头自注意力、自回归的概念没搞清楚的话,值得认真读很多遍,甚至可以当成多模态大模型基础课程学习。原创 2024-01-10 13:28:43 · 411 阅读 · 0 评论 -
51-6 Vision Transformer ,ViT 论文精读
ViT取代了CNN,打通了CV和NLP之间的鸿沟,而且挖了一个更大的多模态的坑。ViT未来有可能真就是一个简洁、高效、通用的视觉骨干网络,而且可以完全不用任何标注信息。当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果。原创 2024-01-09 19:55:13 · 1165 阅读 · 0 评论 -
51-7 CLIP,Contrastive Language-Image Pre-training 论文精读
大规模数据,大规模模型CLIP,Contrastive Language-Image Pre-training是OpenAI在2021年2月发表的一篇文章,它是用文本作为监督信号来训练可迁移的视觉模型。在训练完成之后,作者将其应用在zero-shot分类任务中,同时还做了大量的实验,这些都表明CLIP在表征学习、鲁棒性、认知学习能力等方面具有很好的性能。原创 2024-01-08 19:58:17 · 411 阅读 · 0 评论 -
51-3 逐段精读、逐篇点评大模型论文系列—从入门到痴迷
大模型论文精读原创 2023-12-24 17:20:04 · 457 阅读 · 0 评论 -
51-1 多模态大模型的概念、核心技术以及评测
Foundation Models对智能体基本认知能力有巨大的推动作用,当然大模型资源消耗极大,需要进一步去解决。原创 2023-10-19 13:03:05 · 976 阅读 · 0 评论