《LLM+搜索数据增强》10篇一览,附一点个人经验

在之前两篇分享《LLM+搜索改写》10篇论文一览 《LLM+搜索召排》10篇论文一览中,分享了LLM应用于搜索领域的一些方法。

在两篇的文末,我们都讨论了LLM在整个搜索系统中部署的问题。相比在搜索系统中直接或间接地应用,离线使用LLM进行搜索数据的增强、在低数据生成成本下获取更高质量的标注数据实为一个不错的方法。同时,这一策略在面对领域内数据缺少时非常有效,即利用开放领域(open-domain)的LLM缓解特殊领域(in-domain)数据稀少问题。

已经有不少一线大厂内的朋友向我透露,在一些问题上使用LLM进行数据增强已经有了有效的落地并产生了不错的效果。今天我们分享前段时间一些相关的,利用LLM进行搜索数据增强的论文。

一、非搜索领域

  • SuperGen:Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
  • DARE:DARE: Data Augmented Relation Extraction with GPT-2

supergen

利用LLM进行数据增强的方法非常简单直接,根据任务设计好prompt,然后对应的地方填上数据即可。这种情况下,可以直接用现有的很多LLM在线服务对当前prompt和结果进行初步观察。如SuperGen就利用NLG模型生成数据质量高的优势,结合NLU模型理解能力强的优势,在多个GLUE任务上起到了不错的效果。

如果模型体量较小,还可以考虑将模型在目标任务领域数据上进行微调。这里举例一篇20年发布的较早的论文,DARE。DARE用gpt2先在领域内数据上微调,然后用生成的训练数据来提升BERT类模型在关系抽取任务上的效果。这一思路其实是和SuperGen思路是相同的,只是gpt2的模型体量更小,在相关领域上微调后生成的数据质量可能反而更好。

二、LLM帮我造句

对搜索数据进行数据增强就是获取更多的“query-doc”对。一种方法是根据query生成假doc,而另一种是根据doc生成假query。相关研究有下:

  • InPars: Data Augmentation for Information Retrieval using Large Language Models
  • InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
  • InPairs-Light:Cost-Effective Unsupervised Training of Efficient Rankers
  • Promptagator:Few-shot Dense Retrieval From 8 Examples
  • UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers

inpairs

InPairs利用LLM的上下文学习能力,结合给出的示例,给doc生成了大量的假query,然后通过微调后的语言模型进行结果“过滤”。在inPairs-V2版本中,一个较大的变化是,其利用在检索数据集上微调的T5-3B模型来过滤生成的查询,而不是简单的通过概率进行过滤,以此来提升生成数据的可靠性。而后续的inPairs-Light版本也对“过滤器”进行了瘦身,参数从30亿降至2亿。

PROMPTAGATOR 利用inPairs中“生成-过滤”这一过程,在生成的样本上微调检索器,然后使用该检索器过滤生成的样本。重复这两个步骤直到收敛,以产生高质量的训练集。

UDAPDR

在inPairs-V2版本中,研究者意识到请求LLM如chatgpt、gpt4的API进行数据增强会带来高额的成本,开始采用开源的LLM替换API请求方式,但可能会导致增强数据的质量下降。UDAPDR 针对这一问题,先用高质量LLM根据doc生成高质量query,然后用高质量doc-query送入低成本LLM扩充数量,兼顾了成本和效果问题,其过程如图所示。

以上方法都通过预制的prompt获取LLM的输出,且模型的参数都是固定的。SPTAR基于以上研究,结合soft prompt相关技术,进一步提高了生成数据的质量。

SPTAR

相反地,除了根据doc生成假query,也有研究根据query生成假doc。ChatGPT-RetrievalQA利用LLM生成doc做bert排序模型的数据增强,并将结果与人工编写的进行对比实验。

ChatGPT-RetrievalQA

三、LLM帮我标注

除了对“query-doc”数据对进行增强,还可以利用LLM获取query与doc的假label,即让模型帮我判断这条数据是不是正样本,是正样本的概率是多少?相关研究有:

  • ART:Questions Are All You Need to Train a Dense Passage Retriever
  • ExaRanker:Explanation-Augmented Neural Ranker
  • ChatGPT-RetrievalQA:Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts

ART

ART的过程如上图所示。先将query经过向量编码,然后通过向量检索器选出相关文档,再让模型给每个文档与query的相关性进行打分。这一打分被作为soft label,反馈给之前的passage encoder和question encoder进行更新训练。类似地,ExaRanker 使用 GPT-3.5 为检索数据集生成解释,随后训练一个 seq2seq 排名模型来生成相关标签以及给定查询-文档对的相应解释。

ExaRanker

四、个人一点经验

利用LLM进行数据增强在实际应用中有着不错的落地空间,哪怕是在之前的模型不变的情况下,用增强的数据对模型进行增量训练,或者联合原始数据进行重新训练,一般都能使模型获得部分提升。

在实际业务中,我尝试过利用LLM进行query NER任务的数据增强,背景:

  • 模型祖传不易大改。模型整体非常轻量,线上耗时要求高。
  • 数据质量较差。打听了一下,之前由人工标注的,不知道怎么标的错误率接近10%。
  • 数据量较多。大概十几万条NER句子。

这种情况下,为了修正部分NER数据,我尝试用LLM进行数据增强。结合中文数据背景,本地尝试了GLM2-6b、Baichuan-13b,线上API尝试了GPT4、GPT3.5、文心一言、轩辕(也是百度千帆的,选这个因为是免费)。在详细的prompt、几条示例的加持下,测试了大概一二百条数据。以下结果基于本人的观察和体验总结得到:

效果上,GPT4和GPT3.5是最好的,但是仍有小部分领域内数据没有标注正确。相比下,本地尝试的glm和baichuan的结果不忍直视,甚至都不能按照指定的输出格式进行数据输出。在尝试优化了多次prompt模板后,能勉强按照格式输出,但是基本的标注结果仍有很多错误。文心一言、轩辕介于两者中间,遇到一个明显的问题是,越到后面的输出部分,这两个模型越容易产生文字飘逸的问题(开始胡乱输出,或者NER全标为一个标签)。

成本上,glm6b、baichuan13b分别用1、2张V100加载的,环境配置有点麻烦但不用写什么代码,也没有使用成本(有卡的情况下)。gpt4 api我是某宝买的api,只买了少量的,算了下如果十几万数据标下来,公司不给我报销我是吃不消的。gpt3.5也是某宝,算了下价格大概在几百块。文心一言大概接近一百。轩辕是免费的。

时间上,试了一二百条,速度没有明显差异,算了下十几万数据标完不中断大概一到两天时间。

综合多种原因,最终还是放弃了,改用了别的非LLM的方法。原因主要还是效果问题,哪怕是最好的gpt4,面对领域内数据仍有很多标注错误的。最后提出几点建议:

  • 可以对数据进行远程监督、或者综合多个模型结果,过滤出关键数据进行数据标注。
  • 可以利用langchain等框架结合领域内数据、字典进行领域内数据增强或者标注。
  • 本地的话,也可以考虑利用lora等方法在领域内数据上微调小体量模型,感觉上应该有用,实际没试过。

本节介绍到的更多详细内容可参考文末参考文献。

五、LLM+搜索总结

至此对该系列做个总结。尽管LLM已经在搜索系统各模块中崭露头角,但因其固有特点导致应用还存在一些问题:

1. 模型体量大、推理耗时高

众所周知LLM具有超大的身材,这意味着模型本身的线上部署和推理存在着很大的挑战。而不同于信息抽取、文本分析等NLP任务,搜索场景本身对线上延时的要求非常高,这对于LLM在工业场景中的实际落地带来了很大困难。对于该问题,有大概三种思路:

  • 对LLM进行瘦身。从PLM时代以来,模型的压缩就已经是工业界模型落地必不可少的环节之一,其中不少方法都可以迁移至LLM上。在保留其中绝大部分知识的情况下,尽可能地减少模型体积能有效降低其部署及推理成本。常见的模型压缩方法有:裁剪、量化、蒸馏
  • 退而求其次,选择小体量LLM。在上述的研究中,大多方法在一开始都考虑到了模型的部署、推理等问题,选择了体量较小的模型作为其backbone(如T5)。小体量LLM不仅部署简单、速度快,而且可以针对域内数据做针对性微调,相比大体量LLM甚至能达到更好的效果。
  • 应用至离线任务。可以将LLM应用至离线任务,间接支持线上任务。如doc总结、数据增强等等。

不少研究方法没有以实际落地为目标,为保证其效果,仍选择调用高耗时API、请求低推理速度超大模型,以达到刷新公开数据集指标的效果。虽然这些研究没能实际落地,但仍为工业界提供了宝贵的思路。

2. 结果评估存在偏差

在搜索领域,各子模块与搜索系统的整体一直存在着评估一致性偏差。而在LLM时代,这一问题将被放大,如何正确评估LLM在整个搜索系统中的作用,将对合理应用LLM产生指导作用。

3. 模型幻觉

尽管是超大规模参数的LLM,也存在一定的幻觉现象,这也是LLM中一大热门问题。尤其是在开放领域搜索系统中,LLM幻觉问题、不可控性等缺点可能会对搜索系统产生消极影响,影响用户体验。现有的主流缓解幻觉的方法主要有外部知识增强、提高数据质量、后处理干预等手段,更多方法还在探索之中。

本系列浅薄地介绍了LLM在搜索任务上的一些相关研究与应用,这些研究给LLM时代的搜索系统演变优化提供了宝贵的思路和经验,但是也面临着更大的挑战。LLM时代的搜索系统仍在前进和改变的道路上,未来的搜索引擎会是什么样的?会不会对传统的搜索架构产生颠覆影响?这些问题等着我们一起见证。

参考文献

  • Meng Y, Huang J, Zhang Y, et al. Generating training data with language models: Towards zero-shot language understanding[J]. Advances in Neural Information Processing Systems, 2022, 35: 462-477.
  • Papanikolaou Y, Pierleoni A. Dare: Data augmented relation extraction with gpt-2[J]. arXiv preprint arXiv:2004.13845, 2020.
  • Bonifacio L, Abonizio H, Fadaee M, et al. Inpars: Data augmentation for information retrieval using large language models[J]. arXiv preprint arXiv:2202.05144, 2022.
  • Jeronymo V, Bonifacio L H, Abonizio H, et al. InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval. CoRR abs/2301.01820 (2023)[J]. 2023.
  • Boytsov L, Patel P, Sourabh V, et al. InPars-Light: Cost-Effective Unsupervised Training of Efficient Rankers[J]. arXiv preprint arXiv:2301.02998, 2023.
  • Dai Z, Zhao V Y, Ma J, et al. Promptagator: few-shot dense retrieval from 8 examples (2022)[J]. arXiv preprint arXiv:2209.11755, 2022.
  • Saad-Falcon J, Khattab O, Santhanam K, et al. UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers[J]. arXiv preprint arXiv:2303.00807, 2023.
  • Singh Sachan D, Lewis M, Yogatama D, et al. Questions Are All You Need to Train a Dense Passage Retriever[J]. arXiv e-prints, 2022: arXiv: 2206.10658.
  • Ferraretto F, Laitz T, Lotufo R, et al. ExaRanker: Explanation-Augmented Neural Ranker[J]. arXiv preprint arXiv:2301.10521, 2023.
  • Askari A, Aliannejadi M, Kanoulas E, et al. Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts[J]. arXiv preprint arXiv:2305.02320, 2023.

欢迎关注我们的公众号“情迷搜广推”,会不定时分享搜广推及NLP前沿技术

  • 40
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值