论文笔记:RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

1.挑战/问题(Challenges/Issues)

这篇论文面临的主要挑战是如何提高模型在细粒度识别任务中的性能。CLIP(Contrastive Language–Image Pre-training)模型虽然在广泛的候选识别上表现出色,但在区分细微差别的细粒度项目上精度不足。而多模态大型语言模型(MLLMs)虽然在分类细粒度类别上表现出色,但随着类别数量的增加,其性能会下降,主要是由于处理大量词汇和细微差别时受到有限上下文窗口大小的限制。

2. 技术贡献(Technical Contribution)

论文提出了RAR(Retrieving And Ranking Augmented MLLMs)方法,这是一种增强型的多模态检索和排名方法,用于提升MLLMs在少量样本/零样本识别能力,特别是在处理具有广泛和细粒度词汇表的数据集时。RAR通过结合CLIP的检索能力和MLLMs的分类能力,旨在解决细粒度识别中的固有限制,并保持模型的全面知识库。

在这里插入图片描述

Extracting the Multi-modal Embeddings.

针对 image classification 任务的数据集,

使用clip对一个 样本(由图片和label组成的 pair

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值