Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach
发布时间(2024 ACL)
标题:使用大型语言模型进行交互式文本到图像检索:即插即用方法
摘要
在本文中,我们主要解决交互式文本到图像检索任务中的对话形式上下文查询问题。我们的方法 PlugIR 以两种方式积极利用 LLM 的一般指令跟踪能力。首先,通过重新制定对话形式上下文,我们消除了在现有视觉对话数据上微调检索模型的必要性,从而可以使用任意黑盒模型。其次,我们构建了 LLM 提问器,以基于当前上下文中的检索候选图像信息生成有关目标图像属性的非冗余问题。 这种方法减轻了生成问题中的噪声和冗余问题。除了我们的方法之外,我们还提出了一种新颖的评估指标——最佳对数秩积分 (BRI),用于全面评估交互式检索系统。与各种基准测试中的零样本和微调基线相比,PlugIR 表现出卓越的性能。此外,PlugIR 的两种方法可以在各种情况下灵活地一起或单独应用。我们的代码可以在 https://github.com/Saehyung-Lee/PlugIR 上找到。
对话形式的图文检索:(初步理解)text query 通过对话不断细化,然后检索
创新1:不需要微调模型
创新2:问题生成器
创新3:提出新的评估指标BRI
3 方法
zero-shot LLM是否理解对话?延伸出两种解决办法
结论:不能。随着对话轮次增多,hits@10逐渐增大(说明:开始