《LLM+搜索数据增强》10篇一览，附一点个人经验

最新推荐文章于 2024-05-28 10:33:16 发布

情迷搜广推

最新推荐文章于 2024-05-28 10:33:16 发布

阅读量1.8k

点赞数 40

分类专栏： LLM+搜索文章标签：人工智能大数据机器学习

本文链接：https://blog.csdn.net/weixin_57384302/article/details/135103578

版权

LLM+搜索专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在之前两篇分享《LLM+搜索改写》10篇论文一览《LLM+搜索召排》10篇论文一览中，分享了LLM应用于搜索领域的一些方法。

在两篇的文末，我们都讨论了LLM在整个搜索系统中部署的问题。相比在搜索系统中直接或间接地应用，离线使用LLM进行搜索数据的增强、在低数据生成成本下获取更高质量的标注数据实为一个不错的方法。同时，这一策略在面对领域内数据缺少时非常有效，即利用开放领域（open-domain）的LLM缓解特殊领域（in-domain）数据稀少问题。

已经有不少一线大厂内的朋友向我透露，在一些问题上使用LLM进行数据增强已经有了有效的落地并产生了不错的效果。今天我们分享前段时间一些相关的，利用LLM进行搜索数据增强的论文。

一、非搜索领域

SuperGen：Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
DARE：DARE: Data Augmented Relation Extraction with GPT-2

supergen

利用LLM进行数据增强的方法非常简单直接，根据任务设计好prompt，然后对应的地方填上数据即可。这种情况下，可以直接用现有的很多LLM在线服务对当前prompt和结果进行初步观察。如SuperGen就利用NLG模型生成数据质量高的优势，结合NLU模型理解能力强的优势，在多个GLUE任务上起到了不错的效果。

如果模型体量较小，还可以考虑将模型在目标任务领域数据上进行微调。这里举例一篇20年发布的较早的论文，DARE。DARE用gpt2先在领域内数据上微调，然后用生成的训练数据来提升BERT类模型在关系抽取任务上的效果。这一思路其实是和SuperGen思路是相同的，只是gpt2的模型体量更小，在相关领域上微调后生成的数据质量可能反而更好。

二、LLM帮我造句

对搜索数据进行数据增强就是获取更多的“query-doc”对。一种方法是根据query生成假doc，而另一种是根据doc生成假query。相关研究有下：

InPars: Data Augmentation for Information Retrieval using Large Language Models
InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
InPairs-Light：Cost-Effective Unsupervised Training of Efficient Rankers
Promptagator：Few-shot Dense Retrieval From 8 Examples
UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers

inpairs

InPairs利用LLM的上下文学习能力，结合给出的示例，给doc生成了大量的假query，然后通过微调后的语言模型进行结果“过滤”。在inPairs-V2版本中，一个较大的变化是，其利用在检索数据集上微调的T5-3B模型来过滤生成的查询，而不是简单的通过概率进行过滤，以此来提升生成数据的可靠性。而后续的inPairs-Light版本也对“过滤器”进行了瘦身，参数从30亿降至2亿。

PROMPTAGATOR 利用inPairs中“生成-过滤”这一过程，在生成的样本上微调检索器，然后使用该检索器过滤生成的样本。重复这两个步骤直到收敛，以产生高质量的训练集。

UDAPDR

在inPairs-V2版本中，研究者意识到请求LLM如chatgpt、gpt4的API进行数据增强会带来高额的成本，开始采用开源的LLM替换API请求方式，但可能会导致增强数据的质量下降。UDAPDR 针对这一问题，先用高质量LLM根据doc生成高质量query，然后用高质量doc-query送入低成本LLM扩充数量，兼顾了成本和效果问题，其过程如图所示。

以上方法都通过预制的prompt获取LLM的输出，且模型的参数都是固定的。SPTAR基于以上研究，结合soft prompt相关技术，进一步提高了生成数据的质量。

SPTAR

相反地，除了根据doc生成假query，也有研究根据query生成假doc。ChatGPT-RetrievalQA利用LLM生成doc做bert排序模型的数据增强，并将结果与人工编写的进行对比实验。

ChatGPT-RetrievalQA

三、LLM帮我标注

除了对“query-doc”数据对进行增强，还可以利用LLM获取query与doc的假label，即让模型帮我判断这条数据是不是正样本，是正样本的概率是多少？相关研究有：

ART：Questions Are All You Need to Train a Dense Passage Retriever
ExaRanker：Explanation-Augmented Neural Ranker
ChatGPT-RetrievalQA：Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts

ART

ART的过程如上图所示。先将query经过向量编码，然后通过向量检索器选出相关文档，再让模型给每个文档与query的相关性进行打分。这一打分被作为soft label，反馈给之前的passage encoder和question encoder进行更新训练。类似地，ExaRanker 使用 GPT-3.5 为检索数据集生成解释，随后训练一个 seq2seq 排名模型来生成相关标签以及给定查询-文档对的相应解释。

ExaRanker

四、个人一点经验

利用LLM进行数据增强在实际应用中有着不错的落地空间，哪怕是在之前的模型不变的情况下，用增强的数据对模型进行增量训练，或者联合原始数据进行重新训练，一般都能使模型获得部分提升。

在实际业务中，我尝试过利用LLM进行query NER任务的数据增强，背景：

模型祖传不易大改。模型整体非常轻量，线上耗时要求高。
数据质量较差。打听了一下，之前由人工标注的，不知道怎么标的错误率接近10%。
数据量较多。大概十几万条NER句子。

这种情况下，为了修正部分NER数据，我尝试用LLM进行数据增强。结合中文数据背景，本地尝试了GLM2-6b、Baichuan-13b，线上API尝试了GPT4、GPT3.5、文心一言、轩辕（也是百度千帆的，选这个因为是免费）。在详细的prompt、几条示例的加持下，测试了大概一二百条数据。以下结果基于本人的观察和体验总结得到：

效果上，GPT4和GPT3.5是最好的，但是仍有小部分领域内数据没有标注正确。相比下，本地尝试的glm和baichuan的结果不忍直视，甚至都不能按照指定的输出格式进行数据输出。在尝试优化了多次prompt模板后，能勉强按照格式输出，但是基本的标注结果仍有很多错误。文心一言、轩辕介于两者中间，遇到一个明显的问题是，越到后面的输出部分，这两个模型越容易产生文字飘逸的问题（开始胡乱输出，或者NER全标为一个标签）。

成本上，glm6b、baichuan13b分别用1、2张V100加载的，环境配置有点麻烦但不用写什么代码，也没有使用成本（有卡的情况下）。gpt4 api我是某宝买的api，只买了少量的，算了下如果十几万数据标下来，公司不给我报销我是吃不消的。gpt3.5也是某宝，算了下价格大概在几百块。文心一言大概接近一百。轩辕是免费的。

时间上，试了一二百条，速度没有明显差异，算了下十几万数据标完不中断大概一到两天时间。

综合多种原因，最终还是放弃了，改用了别的非LLM的方法。原因主要还是效果问题，哪怕是最好的gpt4，面对领域内数据仍有很多标注错误的。最后提出几点建议：

可以对数据进行远程监督、或者综合多个模型结果，过滤出关键数据进行数据标注。
可以利用langchain等框架结合领域内数据、字典进行领域内数据增强或者标注。
本地的话，也可以考虑利用lora等方法在领域内数据上微调小体量模型，感觉上应该有用，实际没试过。

本节介绍到的更多详细内容可参考文末参考文献。

五、LLM+搜索总结

至此对该系列做个总结。尽管LLM已经在搜索系统各模块中崭露头角，但因其固有特点导致应用还存在一些问题:

1. 模型体量大、推理耗时高

众所周知LLM具有超大的身材，这意味着模型本身的线上部署和推理存在着很大的挑战。而不同于信息抽取、文本分析等NLP任务，搜索场景本身对线上延时的要求非常高，这对于LLM在工业场景中的实际落地带来了很大困难。对于该问题，有大概三种思路：

对LLM进行瘦身。从PLM时代以来，模型的压缩就已经是工业界模型落地必不可少的环节之一，其中不少方法都可以迁移至LLM上。在保留其中绝大部分知识的情况下，尽可能地减少模型体积能有效降低其部署及推理成本。常见的模型压缩方法有：裁剪、量化、蒸馏。
退而求其次，选择小体量LLM。在上述的研究中，大多方法在一开始都考虑到了模型的部署、推理等问题，选择了体量较小的模型作为其backbone（如T5）。小体量LLM不仅部署简单、速度快，而且可以针对域内数据做针对性微调，相比大体量LLM甚至能达到更好的效果。
应用至离线任务。可以将LLM应用至离线任务，间接支持线上任务。如doc总结、数据增强等等。

不少研究方法没有以实际落地为目标，为保证其效果，仍选择调用高耗时API、请求低推理速度超大模型，以达到刷新公开数据集指标的效果。虽然这些研究没能实际落地，但仍为工业界提供了宝贵的思路。

2. 结果评估存在偏差

在搜索领域，各子模块与搜索系统的整体一直存在着评估一致性偏差。而在LLM时代，这一问题将被放大，如何正确评估LLM在整个搜索系统中的作用，将对合理应用LLM产生指导作用。

3. 模型幻觉

尽管是超大规模参数的LLM，也存在一定的幻觉现象，这也是LLM中一大热门问题。尤其是在开放领域搜索系统中，LLM幻觉问题、不可控性等缺点可能会对搜索系统产生消极影响，影响用户体验。现有的主流缓解幻觉的方法主要有外部知识增强、提高数据质量、后处理干预等手段，更多方法还在探索之中。

本系列浅薄地介绍了LLM在搜索任务上的一些相关研究与应用，这些研究给LLM时代的搜索系统演变优化提供了宝贵的思路和经验，但是也面临着更大的挑战。LLM时代的搜索系统仍在前进和改变的道路上，未来的搜索引擎会是什么样的？会不会对传统的搜索架构产生颠覆影响？这些问题等着我们一起见证。

参考文献

Meng Y, Huang J, Zhang Y, et al. Generating training data with language models: Towards zero-shot language understanding[J]. Advances in Neural Information Processing Systems, 2022, 35: 462-477.
Papanikolaou Y, Pierleoni A. Dare: Data augmented relation extraction with gpt-2[J]. arXiv preprint arXiv:2004.13845, 2020.
Bonifacio L, Abonizio H, Fadaee M, et al. Inpars: Data augmentation for information retrieval using large language models[J]. arXiv preprint arXiv:2202.05144, 2022.
Jeronymo V, Bonifacio L H, Abonizio H, et al. InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval. CoRR abs/2301.01820 (2023)[J]. 2023.
Boytsov L, Patel P, Sourabh V, et al. InPars-Light: Cost-Effective Unsupervised Training of Efficient Rankers[J]. arXiv preprint arXiv:2301.02998, 2023.
Dai Z, Zhao V Y, Ma J, et al. Promptagator: few-shot dense retrieval from 8 examples (2022)[J]. arXiv preprint arXiv:2209.11755, 2022.
Saad-Falcon J, Khattab O, Santhanam K, et al. UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers[J]. arXiv preprint arXiv:2303.00807, 2023.
Singh Sachan D, Lewis M, Yogatama D, et al. Questions Are All You Need to Train a Dense Passage Retriever[J]. arXiv e-prints, 2022: arXiv: 2206.10658.
Ferraretto F, Laitz T, Lotufo R, et al. ExaRanker: Explanation-Augmented Neural Ranker[J]. arXiv preprint arXiv:2301.10521, 2023.
Askari A, Aliannejadi M, Kanoulas E, et al. Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts[J]. arXiv preprint arXiv:2305.02320, 2023.

欢迎关注我们的公众号“情迷搜广推”，会不定时分享搜广推及NLP前沿技术