LLM与多模态
文章平均质量分 84
LLM大模型、多模态相关,理论原理到实战
xddwz
这个作者很懒,什么都没留下…
展开
-
Vision-Language Models for Vision Tasks: A Survey
文本特征提取模块,通常采用Transformer结构及其一系列变体作为基础结构。图像特征提取模块,通常采用CNN(以ResNet结构为典型代表)或者Transformer(如ViT、MAE等结构)来提取图像特征。特征融合模块在VLM预训练模型中,最关键的问题是将文本和图像这两种模态的信息建立联系,所以下面对其中的特征融合模块做详细介绍。原创 2024-04-01 16:36:29 · 1373 阅读 · 0 评论 -
LoRA大模型加速微调和训练算法解读
冻结预训练模型权重,并将可训练的秩分解矩阵注入到Transformer层的每个权重中,大大减少了下游任务的可训练参数数量。原创 2023-08-31 17:26:06 · 1371 阅读 · 0 评论 -
Clip算法解读
而且重要的是,CLIP 的这种推理的方法摆脱了类别的限制,比如一张 "三轮车" 的图片,假设 ImageNet 里面没有 "三轮车" 这个类,那么基于 ImageNet 所训练的任何模型都无法正确地讲这个图片分类为 "三轮车" ,但是 CLIP 的范式是可以做到的,只需要去做成一个 prompt:"A photo of a {tricycle}"。基于最近的图像对比表征学习方面的研究,可以仅预测整个文本与哪个图像配对,而不是该文本的确切单词,实验结果如下图1的绿色曲线所示,其效率是橘红色曲线的4倍。原创 2024-03-30 19:48:06 · 687 阅读 · 0 评论 -
ALBEF算法解读
ALBEF论文全名Align before Fuse: Vision and Language Representation Learning with Momentum Distillation,来自于Align before Fuse,作者团队为Salesforce Research。原创 2024-02-20 20:06:13 · 1182 阅读 · 1 评论 -
VILT算法解读
首先是文本输入,原始的文本输入可以看成是一个单词序列(比如图中的a,stone,statue等等),然后通过Word Embedding算法处理为词嵌入向量,所谓词嵌入向量就是一个高维的向量表征,同一个单词具有相同的嵌入表征,同时同义词的表征距离越近(具体词嵌入的过程可以参考NLP的一些资料,简单来说就是需要一个词汇表(vocabulary dict),然后将单词分词后转化为词汇表中的索引,再将数字索引变为高维向量)。由于视觉和文本输入被转化为了相同的token特征,所以后续的处理方式就可以统一了。原创 2024-02-20 16:09:48 · 1047 阅读 · 0 评论 -
【LLM与多模态】Transformer为什么如此强大
同时,大规模的训练数据和优化技巧也为提高模型性能做出了重要贡献。原创 2024-02-20 14:45:46 · 443 阅读 · 0 评论