《LLM+搜索改写》10篇论文一览_neural text generation for query expansion in info-CSDN博客

本文链接：https://blog.csdn.net/weixin_57384302/article/details/135069546

欢迎关注我们的公众号“情迷搜广推”会不时发布搜广推及其他前沿技术讨论

LLM不同程度地影响着各个领域，搜索也不例外。本文整理了10篇较新的LLM应用于搜索改写的文章供大家学习参考。

一、背景

信息检索（Information Retrival，IR）系统已不仅仅局限于网络上的各类搜索引擎，在对话机器人、问答系统、图像搜索系统等场景已有广泛的应用。大模型时代的各种技术方法对现有的文本搜索会产生什么样的影响？

1.1 搜索系统发展现状

搜索系统长期以来的发展可粗略进行以下划分:

基于符号的方法：布尔模型、关键字匹配等。高效精准。
基于统计语言模型的方法：TF-IDF、BM25等。捕捉术语间细微的语义关系。
结合神经网络模型的方法：DNN、Transformers等。支持语义搜索、个性化搜索等。

现在搜索系统仍面临着诸多挑战，比如模糊query、检索效率等。

1.2 LLM的优势

LLM已成为引领各个领域变革的力量，总体来说，LLM的优势主要有下:

出色的语义理解和生成能力
随着规模的扩大出现涌向能力
通过上下文学习适应各种任务

在出色能力的加持下，已有诸多研究已将LLM应用于搜索系统。

二、LLM赋能query理解的改写模块

2.1 什么是改写（Rewrite）？

改写（Rewrite）是指搜索系统根据用户的查询意图和搜索历史等信息，对查询进行改写，以提供更准确、更相关的搜索结果，是搜索系统中的关键模块，对于长尾query的搜索质量提升有非常大的帮助。搜索系统中常见的改写方法可以被分为以下两类：

伪相关反馈（Pseudo Relevance Feedback，PRF）：将搜索结果中出现频率较高的词语作为新的查询条件，重新执行搜索。PRF易于实现且结果可控，但受第一次搜索结果影响较大，易受噪声影响。
生成相关反馈（Generative Relevance Feedback，GRF）：通过生成式模型，根据用户query生成文本，提升搜索结果的质量。GRF效果好但实现复杂，且生成结果一定程度上是不可控的。

LLM拥有出色的语义理解及生成能力，因此不管将其应用于PRF还是GRF都有很大的提升空间。下面介绍的研究方法也是围绕这两个方面进行的优化改进。

2.2 让LLM写一个改写结果

最简单直接的思路，让LLM作为生成模型，根据用户的query写一段文本，将其作为改写结果送入后续的检索模块，以提高最终的检索质量。相关研究有下：

Query2doc：Query2doc: Query Expansion with Large Language Models，微软
Query Expansion by Prompting Large Language Models，谷歌
LLMCS：Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search，人大
GRM：GRM: Generative Relevance Modeling Using Relevance-Aware Sample Estimation for Document Retrieval
Neural text generation for query expansion in information retrieval

Neural text generation for query expansion in information retrieval

在LLM时代到来之前，就有不少研究利用各种生成式模型来对query进行改写。例如，《Neural text generation for query expansion in information retrieval》一文就利用gpt-2，根据query生成文本作为改写结果。文章整体思路非常简单，但是可以应用在各式各样的搜索系统上，效果也不错。另外，gpt-2模型体量不大，再加上cache等手段的运用，对于搜索系统整体没有什么额外负担。

query2doc

Query Expansion by Prompting Large Language Models

微软的Query2doc方法通过预定的prompt，根据用户的query生成一段文本，用于辅助后续的检索。相比之下，谷歌的研究有两点不同，一是没有利用上下文学习（ICL），二是要求LLM给出其答案的思维链。

LLMCS

上述两个方法可以应用于即席搜索（ad-hoc search）场景，而现代的搜索系统很多支持会话搜索（session search），类似于多轮对话，搜索结果会考虑一个会话中的前几次搜索信息。人大提出的LLMCS是一个支持会话搜索的框架，且针对于会话搜索场景下LLM输入长度增加的问题使用了滑窗方法进行优化。

尽管LLM拥有出色的文本理解和生成能力，不可否认其还是会存在幻觉问题，导致其输出结果背离事实，引入无关噪声影响最终检索结果。针对这一问题，GRM训练了一个神经网络模型，对LLM生成的结果进行相关性打分，最后将得分作为每个生成结果的权重，以减轻无关信息对最终检索结果的影响。

GRM

2.3 综合利用PRF+GRF

以上研究都是利用LLM的生成结果作为改写结果的主要内容，我们可以将其看作是一种生成相关反馈（GRF），而不少研究也同时在模型生成或结果后处理阶段加入伪相关反馈（PRF）的方法来改进改写结果的质量。相关研究有下：

HyDE：Precise Zero-Shot Dense Retrieval without Relevance Labels，CMU
LameR：Large Language Models are Strong Zero-Shot Retriever，UTS
Rewrite-Retrieve-Read：Query Rewriting for Retrieval-Augmented Large Language Models，上交
PRF+GRF：Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval
InteR：Knowledge Refinement via Interaction Between Search Engines and Large Language Models，北大

HyDE

与GRM相同，HyDE针对的主要问题也是LLM可能产生幻觉的问题。HyDE将LLM生成的结果进行编码，利用向量检索器，与真实的文档库中的候选文档进行相关性匹配，然后利用真实的文档作为改写的结果辅助查询。可以看出，该方法实质上就是利用LLM的输出结果而不是query去召回伪文档。相比传统的PRF方法，保证了第一次检索的伪文档的相关性；相比Query2doc等方法，又通过结合PRF避免了LLM可能产生幻觉的问题，保证了结果的高度真实性。类似地，LameR则是将PRF这一过程放到了LLM输入之前。

LameR

从LameR的流程图可以看出，系统首先根据query召回部分相关文档，再将这部分文档形成prompt输入LLM得到输出，作为query的改写结果。这一过程有点类似现在热门的检索增强LLM，只是任务限制在了query改写这一任务上。相关的，Rewrite-Retrieve-Read这一研究则是利用改写去加强检索增强LLM的效果。

Rewrite-Retrieve-Read

Rewrite-Retrieve-Read图中从左到右分别是：检索增强LLM、带有改写器的检索增强LLM、带有强化学习改写器的检索增强LLM。其中Rewrite-Retrieve-Read指的是第三个。可以看出，Rewrite-Retrieve-Read方法不仅利用LLM作为改写器增加了其检索增强的效果，还引入了强化学习，通过最终答案的反馈，来训练高质量LLM改写器。

回到改写任务，HyDE相当于GRF前插了PRF，而LameR相当于PRF前插了GRF，还有研究综合利用了两者来得到改写结果。PRF+GRF直接结合PRF和LLM输出的结果，然后综合加权考虑两者的结果作为改写结果。而InteR则是一种搜索系统和LLM多轮交互框架，通过多次PRF、LLM输出，达到增强两过程效果的目的。

PRF+GRF

InteR

三、小结

至此对LLM赋能搜索改写的几篇论文进行了简单介绍，各类研究都是利用了LLM生成质量较高的特点对已有的搜索系统进行调整优化。以上论文有的出自微软、谷歌等大厂之手，质量有所保障，但仍有部分论文学术性质较强性，落地性未知，但仍提供了宝贵的思路供我们参考借鉴。

感兴趣的可以根据后面参考列表继续进行深入了解。

四、参考文献

Wang L, Yang N, Wei F. Query2doc: Query Expansion with Large Language Models[J]. arXiv preprint arXiv:2303.07678, 2023.
Jagerman R, Zhuang H, Qin Z, et al. Query Expansion by Prompting Large Language Models[J]. arXiv preprint arXiv:2305.03653, 2023.
Mao K, Dou Z, Chen H, et al. Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search[J]. arXiv preprint arXiv:2303.06573, 2023.
Mackie I, Sekulic I, Chatterjee S, et al. GRM: Generative Relevance Modeling Using Relevance-Aware Sample Estimation for Document Retrieval[J]. arXiv preprint arXiv:2306.09938, 2023.
Vincent Claveau. 2022. Neural text generation for query expansion in information retrieval. In IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT '21). Association for Computing Machinery, New York, NY, USA, 202–209. https://doi.org/10.1145/3486622.3493957
Gao L, Ma X, Lin J, et al. Precise zero-shot dense retrieval without relevance labels[J]. arXiv preprint arXiv:2212.10496, 2022.
Shen T, Long G, Geng X, et al. Large Language Models are Strong Zero-Shot Retriever[J]. arXiv preprint arXiv:2304.14233, 2023.
Ma X, Gong Y, He P, et al. Query Rewriting for Retrieval-Augmented Large Language Models[J]. arXiv preprint arXiv:2305.14283, 2023.
Mackie I, Chatterjee S, Dalton J. Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval[J]. arXiv preprint arXiv:2305.07477, 2023.
Feng J, Tao C, Geng X, et al. Knowledge Refinement via Interaction Between Search Engines and Large Language Models[J]. arXiv preprint arXiv:2305.07402, 2023.