1.挑战/问题(Challenges/Issues)
这篇论文面临的主要挑战是如何提高模型在细粒度识别任务中的性能。CLIP(Contrastive Language–Image Pre-training)模型虽然在广泛的候选识别上表现出色,但在区分细微差别的细粒度项目上精度不足。而多模态大型语言模型(MLLMs)虽然在分类细粒度类别上表现出色,但随着类别数量的增加,其性能会下降,主要是由于处理大量词汇和细微差别时受到有限上下文窗口大小的限制。
2. 技术贡献(Technical Contribution)
论文提出了RAR(Retrieving And Ranking Augmented MLLMs)方法,这是一种增强型的多模态检索和排名方法,用于提升MLLMs在少量样本/零样本识别能力,特别是在处理具有广泛和细粒度词汇表的数据集时。RAR通过结合CLIP的检索能力和MLLMs的分类能力,旨在解决细粒度识别中的固有限制,并保持模型的全面知识库。
Extracting the Multi-modal Embeddings.
针对 image classification 任务的数据集,
使用clip
对一个 样本(由图片和label组成的 pair