论文阅读
文章平均质量分 88
will-wil
这个作者很懒,什么都没留下…
展开
-
MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
训练流程:线性映射层输出特征作为soft prompt传入LLM模型,输出对应的target文本,其中vision encoder和LLM均冻结只训练映射层。相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手稿生成网站并且还能够识别出图片中的幽默元素,这是之前的模型难以实现的。发现的问题:训练后模型得到了丰富的知识,对于query能输出合理的回答,但是会产生重复、不相关、碎片化的文本。仅用公开数据集对齐视觉模型和LLM模型容易生成不自然的输出,高质量数据能有效提升模型结果的可用性。原创 2024-02-28 21:00:00 · 407 阅读 · 0 评论 -
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composit
Image Retrieval and Selection阶段:已知适合图片插入的段落位置和caption,clip模型用caption去检索底库图片,获取topn个图片作为候选集,再用多模态LLM从候选集中进行选择,图片的选择信息结合了前文的文本和图片,进一步提升图片、文本主题一致性。训练数据:预训练使用数据如下,基本都是image-pair对的中英双语数据,为了保留初始InternLM的能力,训练时候也用到了InternLM预训练阶段的部分文本数据。原创 2024-02-28 20:57:05 · 742 阅读 · 0 评论 -
vLLM: Easy, Fast, and Memory-Efficient LLM Serving with PagedAttention
Prompt阶段:通过用户输入的prompt计算第一个生成token的条件概率,即生成第一个 token。生成过程中得到 prompt token 的 KVCache,用于后续 token 的生成。Decode阶段:逐步迭代生成每个 token,在生成第t+1个token时,需要将prompt token、已生成的 token 及当前第t个token 的 KVCache拼接起来,与第t个token的query vector 完成SelfAttention等计算,由于数据依赖性,无法并行。原创 2024-02-28 20:52:27 · 747 阅读 · 0 评论 -
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
改进Q-Former模型:instruction text与Query Embedding先self-attention融合,再抽取图像特征,得到特定任务的图像信息,作为soft prompt + instruction text传入LLM模型进行预测。由于来自不同领域的额外视觉输入,视觉-语言任务在性质上更加多样化,构建一个能够推广到广泛的视觉-语言任务的统一模型更具挑战性。的视觉语言指令调整框架,该框架通过一个统一的自然语言接口,使通用模型能够解决广泛的视觉任务。提出了一种指令感知的。原创 2024-02-28 20:47:12 · 447 阅读 · 0 评论 -
ERNIE-VIL 2.0: MULTI-VIEW CONTRASTIVE LEARNING FOR IMAGE-TEXT PRE-TRAINING
好处:1.特殊文本序列可看作包含粗粒度信息的文本单元,用于连接caption中的细粒度语义和图像中的抽象视觉概念,从而达到简化多模态对齐的目的。特殊文本序列:由固定prompt(如:该图片包含...)和实体标签短语组成(预训练实体检测器得到)的句子,同样进行两次dropout,得到两个不同视角的文本表征。正如人可以通过不同的描述或图片去认识真实世界一样,图像或文本同样存在多个不同的视角,单一的视角不能很好的构建模态之间的关系。的正样本对,对于caption跟tag文本序列,训练每轮迭代会随机采样取一个。原创 2024-02-28 20:45:30 · 310 阅读 · 0 评论 -
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
Image-Text Matching (ITM):学习图像和文本特征匹配,根据ITC得到的相似度在线hard构建正负例pair对,拼接query表征Z和文本表征T,采用双向的mask矩阵,经过self-attention交互,对query表征Z进行线性层二分类,对分数取平均,作为最终的输出分数。基于Q-Former提取到的视觉表征作为soft visual prompt,作为LLM语言模型的输入前缀,由于Q-Former已经预训练用于提取对文本有用的视觉表征,可减轻LLM学习视觉-文本对齐的负担。原创 2024-02-28 20:42:09 · 618 阅读 · 0 评论 -
[mPLUG]: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections多模态特征融合方法泛读
模型首先在前几层采用非对称的co-attention架构,通过移除视觉侧的co-attention来提高效率,再将原始的视觉表示和语言侧的co-attention的输出串联输入到一层self-attention。对比不同多模态融合方法的耗时和性能,其中Asymmetric co-attention融合是BLIP模型中的结构,Encoder端的text特征与vit输出的image特征进行Cross-attention特征融合。视觉和语言的表征输入到由多个跳跃连接融合块组成的跨模态跳跃连接网络中。原创 2022-11-18 11:24:30 · 923 阅读 · 1 评论 -
[BLIP]-多模态Language-Image预训练模型
学习MoCo思想,引入momentum encoder和Queue扩大对比学习的batch大小,base encoder用于梯度更新产生新的embedding,momentum encoder根据以下公式更新,k表示momentum encoder参数,q表示base encoder参数,主要为了提升embedding的一致性,维持队列大小,将最新的embedding入队列,弹出队列头embedding。最后,论文将过滤后的图像-文本对与人工标注的文本对结合起来,形成一个新的数据集用它来预训练一个新模型。原创 2022-11-18 11:08:31 · 3591 阅读 · 0 评论 -
[METER]-跨模态论文阅读笔记
论文链接:https://arxiv.org/abs/2111.02387代码链接:GitHub - zdou0830/METER: METER: A Multimodal End-to-end TransformER FrameworkVision-and-language预训练模型(VLP)总览基本流程:输入图片,通过Vision Encoder模块抽取图像特征 输入文本,通过Text Endocer模块抽取文本特征 输入图像、文本特征,通过Multimodal Fusi原创 2022-01-18 10:31:27 · 4367 阅读 · 0 评论 -
[UNIMO]-跨模态论文阅读笔记
论文:https://arxiv.org/pdf/2012.15409.pdfcode:Research/NLP/UNIMO at master · PaddlePaddle/Research · GitHub背景motivation:人类大脑能够处理文本、图像、语音等各种模态的信息,并通过模态间的交互增强提升对世界的认知能力。现存预训练方法只能处理单模或多模任务中的一种,同时也只能利用单模data(text or image)或有限的多模data(image-text pairs)。a原创 2022-01-18 10:00:54 · 2883 阅读 · 0 评论