多模态LLM
文章平均质量分 87
多模态LLM论文以及实践笔记
Nick Blog
这个作者很懒,什么都没留下…
展开
-
IMAGEBIND: One Embedding Space To Bind Them All论文笔记
Since SUN RGB-D and LLVIP are relatively small, we follow [21] and replicate them 50× for training给定一个 (IiMipair,Li是image,Mi是其他模态的数据:损失函数采用InfoNCE loss:IMLMI。原创 2023-09-20 19:48:28 · 650 阅读 · 0 评论 -
NExT-GPT: Any-to-Any Multimodal LLM论文笔记
对于特定模态的指令,调用对应模态的Projection模块以及相应的开源Diffusion解码器 (Stable Diffusion (SD) for image synthesis, Zeroscope for video synthesis, and AudioLDM for audio synthesis) 生成对应输出。整个MM-LLM系统中,Encoder、LLM、Diffusion都是现成的开源预训练模型,只有输入端和输出端的Projection模块需要训练,只有1%的参数需要更新。原创 2023-09-20 15:21:30 · 1825 阅读 · 3 评论 -
X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记
v2tV)pmatch。原创 2023-09-11 16:45:10 · 597 阅读 · 0 评论 -
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video论文笔记
为了缓解视频时空建模中序列长度过大导致的学习困难问题,将视频分解为空间和时间表示,如下图所示,利用Transformer的自注意力层和前馈层进行空间建模,并针对视频输入,提出一种新颖的局部时序建模模块。此外,空间和时间信息的解耦,使得双视觉编码器能够实现图像和视频的参数共享,从而更加高效地学习空间和时间表征。在每个通用层中,视觉query和文本特征通过共享参数的自注意力层来对齐语义,然后视觉query通过交叉注意力从原始视觉特征中提取视觉信息,之后视觉query和文本特征通过共享参数的前馈层进行特征变换。原创 2023-09-11 15:31:55 · 334 阅读 · 0 评论