图文检索(5):Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach


发布时间(2024 ACL)


标题:使用大型语言模型进行交互式文本到图像检索:即插即用方法

摘要

在本文中,我们主要解决交互式文本到图像检索任务中的对话形式上下文查询问题。我们的方法 PlugIR 以两种方式积极利用 LLM 的一般指令跟踪能力。首先,通过重新制定对话形式上下文,我们消除了在现有视觉对话数据上微调检索模型的必要性,从而可以使用任意黑盒模型。其次,我们构建了 LLM 提问器,以基于当前上下文中的检索候选图像信息生成有关目标图像属性的非冗余问题。 这种方法减轻了生成问题中的噪声和冗余问题。除了我们的方法之外,我们还提出了一种新颖的评估指标——最佳对数秩积分 (BRI),用于全面评估交互式检索系统。与各种基准测试中的零样本和微调基线相比,PlugIR 表现出卓越的性能。此外,PlugIR 的两种方法可以在各种情况下灵活地一起或单独应用。我们的代码可以在 https://github.com/Saehyung-Lee/PlugIR 上找到。

对话形式的图文检索:(初步理解)text query 通过对话不断细化,然后检索
创新1:不需要微调模型
创新2:问题生成器
创新3:提出新的评估指标BRI

3 方法

zero-shot LLM是否理解对话?延伸出两种解决办法
结论:不能。随着对话轮次增多,hits@10逐渐增大(说明:开始

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值