![](https://img-blog.csdnimg.cn/direct/89eee556704b47d49bf730d1f873940c.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大模型和多模态
文章平均质量分 97
大模型和多模态学习
zyw2002
Github: https://github.com/zyw-stu
Talent hits a target no one else can hit; Genius hits a target no one else can see;
展开
-
Mamba 基础讲解【SSM,LSSL,S4,S5,Mamba】
🐍 Mamba是一种状态空间模型(SSM)架构,它改进了S4架构。选择性扫描算法(selective scan algorithm),允许模型过滤相关或者不相关的信息硬件感知的算法(hardware-aware algorithm),允许通过并行扫描(parallel scan)、核融合(kernel fusion)和重计算(recomputation)有效地存储(中间)结果。原创 2024-03-21 10:41:08 · 15647 阅读 · 12 评论 -
Mamba复现与代码解读
下图是Mamba论文中的算法介绍:上图中算法的核心是第5步和第6步:第5步是对连续的矩阵A,B进行离散化得到离散化后的矩阵。原创 2024-03-23 15:08:07 · 17243 阅读 · 22 评论 -
Diffusion Model, Stable Diffusion, Stable Diffusion XL 详解
常见的生成模型有:文生图模型的基本架构如下:衡量图像生成质量的指标基于上述思想,Denoising diffusion 模型包括两个过程:首先,我们先来介绍一下如何破坏数据分布。如果我们取任何一幅图像(上图a),它具有某种非随机分布。我们不知道这个分布,但我们的目标是破坏它,我们可以通过向其添加噪声来实现。在这个过程的最后,我们应该得到类似于纯噪声的噪声(上图b)。前向扩散过程的每一步被定义为q(xt∣xt−1)=N(xt,1−βtxt−1,βtI)q(x_t|x_{t-1})= \mathcal{N}原创 2024-05-27 19:31:15 · 1493 阅读 · 3 评论 -
DenseCLIP论文讲解
提出背景现有的方法大多数用CLIP预训练模型来解决分类任务,但是很少应用在密集预测的任务上。本文就主要研究如何微调预训练的CLIP模型,使其可以应用于密集预测任务困难挑战与传统的ImageNet预训练模型相比,最大的挑战是上游对比预训练任务和下游逐像素预测任务之间的gap,前者涉及图像和文本的实例级表示,而后者仅基于像素级的视觉信息。解决思路为了解决上述问题,通过隐式和显式地利用来自CLIP的预训练知识,提出了一个语言引导的密集预测框架:DenseCLIP。该框架是模型不可知()且即插即用(原创 2024-05-09 16:52:09 · 637 阅读 · 0 评论 -
BLIP和BLIP2 论文讲解
通过将Q-Former的输出连接到一个冻结的LLM来执行视觉到语言的生成学习,并训练Q-Former,使其输出的视觉表示可以被LLM解释。ITM是一个二元分类任务,其中模型使用ITM头(线性层)来预测给定图像-文本对的多模态特征是正的(匹配的)还是负的(不匹配的)。它的目的是通过鼓励positive的图像-文本具有相似的表示 (相反,使得negtive的图像文本队具有不同的表示) 来。它们作为软视觉提示(,我们将QFormer (包括冻结图像编码器) 连接到冻结的LLM,以获取LLM的生成语言能力。原创 2024-05-09 10:59:56 · 1049 阅读 · 0 评论 -
CLIP论文讲解和代码实操
研究动机作者的研究动机就是在 NLP 领域利用大规模数据去预训练模型,而且用这种跟下游任务无关的训练方式,NLP 那边取得了非常革命性的成功,比如 GPT-3。作者希望把 NLP 中的这种成功应用到其他领域,如视觉领域。在预训练时 CLIP 使用了对比学习,利用文本的提示去做 zero-shot 迁移学习。在大规模数据集和大模型的双向加持下,CLIP 的性能可以与特定任务的有监督训练出来的模型竞争,同时也有很大的改进空间。CLIP 概述。原创 2024-04-17 14:11:49 · 2238 阅读 · 1 评论