查询重写(Query Rewriting)是一种预检索策略,旨在通过重新表述原始查询来弥合输入文本和检索系统所需知识之间的差距。这种方法通过生成更有利于检索的新查询,帮助检索系统更好地理解用户的检索需求,从而提高检索的准确性和相关性。以下是查询重写方法的具体介绍:
1. 方法概述
查询重写方法的核心思想是通过重新表述原始查询,使其更符合检索系统的理解和处理方式。这通常涉及使用大型语言模型(LLMs)或其他生成模型来生成新的查询,这些新查询包含了更明确和具体的检索需求。
2. 重写-检索-阅读框架
Ma 等人提出的重写-检索-阅读框架包括以下步骤:
- 重写步骤:使用LLM或其他生成模型对原始查询进行重写,生成一个或多个新的查询。这些新查询旨在明确表达检索需求,减轻检索系统理解输入的负担。
- 检索步骤:使用重写后的新查询进行检索,通常通过密集检索器或其他检索技术来找到相关的文档或信息。
- 阅读步骤:对检索到的相关信息进行阅读和解析,以生成最终的答案或输出。
3. 使用冻结LLM和可训练模型
Ma 等人在实验中测试了两种不同的设置:
- 冻结LLM:使用预训练好的LLM作为重写器,不对其进行进一步的训练。这种方法依赖于LLM的预训练知识来生成新查询。
- 可训练模型:使用可训练的生成模型作为重写器,通过在特定任务上进行微调来优化其性能。这种方法可以根据具体任务的需求进行定制