论文笔记：RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

最新推荐文章于 2025-05-27 23:47:46 发布

chnyi6_ya

最新推荐文章于 2025-05-27 23:47:46 发布

阅读量1k

点赞数 22

分类专栏：记录看过的论文文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47505105/article/details/144033239

版权

1.挑战/问题（Challenges/Issues）

这篇论文面临的主要挑战是如何提高模型在细粒度识别任务中的性能。CLIP（Contrastive Language–Image Pre-training）模型虽然在广泛的候选识别上表现出色，但在区分细微差别的细粒度项目上精度不足。而多模态大型语言模型（MLLMs）虽然在分类细粒度类别上表现出色，但随着类别数量的增加，其性能会下降，主要是由于处理大量词汇和细微差别时受到有限上下文窗口大小的限制。

2. 技术贡献（Technical Contribution）

论文提出了RAR（Retrieving And Ranking Augmented MLLMs）方法，这是一种增强型的多模态检索和排名方法，用于提升MLLMs在少量样本/零样本识别能力，特别是在处理具有广泛和细粒度词汇表的数据集时。RAR通过结合CLIP的检索能力和MLLMs的分类能力，旨在解决细粒度识别中的固有限制，并保持模型的全面知识库。

在这里插入图片描述

Extracting the Multi-modal Embeddings.

针对 image classification 任务的数据集，

使用clip对一个样本（由图片和label组成的 pair

最低0.47元/天解锁文章

博客等级

码龄5年

291
原创

796
点赞

1943
收藏

922
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 论文笔记：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

下一篇：: 论文笔记：Asymptotic Midpoint Mixup for Margin Balancing and Moderate Broadening

最新评论

2025/02/25阅读论文笔记：两篇和Spurious Correlations任务的论文
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
2025/02/22阅读论文笔记：2篇多模态大模型（MLLM）在image classification任务上的相关论文
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：GREATS: Online Selection of High-Quality Data for LLM Training in Every Iteration
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。