综述分享-北航&阿里-当LLM遇上Embedding

本文将介绍我们的LLM&Embedding综述的内容,将从主要思想数据增强模型设计任务类型未来挑战多个部分对LLM如何结合Embedding进行讲解,更多细节欢迎阅读Arxiv论文!

论文题目:When Text Embedding Meets Large Language Model: A Comprehensive Survey

论文链接:https://arxiv.org/abs/2412.09165

来源:北航&阿里 / 笔者参与的论文

方向:LLM, Text Embedding

img

0.摘要

在深度学习时代,文本嵌入已经成为自然语言处理(NLP)的基础技术,推动了大量下游任务的进步。虽然许多自然语言理解的挑战现在可以使用生成范式来建模,并利用大型语言模型(LLM)的强大生成和理解能力来实现,但许多实际应用——如语义匹配聚类信息检索——仍然依赖于文本嵌入来提高效率有效性

在本综述中,我们将LLM和文本嵌入之间的相互作用分为三个主题:(1)LLM增强的文本嵌入,用LLM增强传统的嵌入方法;(2)LLM作为文本嵌入模型,利用其固有的嵌入生成能力;(3)利用LLM做文本嵌入的理解,即利用LLM来分析和解释嵌入。

通过基于交互模式而不是特定的下游任务来组织这些工作,我们提供了一个在LLM时代下对各种Embedding相关研究和应用的新颖且系统的概述

1.介绍

本综述的三个部分可以用下图进行概括。

第一部分介绍LLM如何做Embedding任务数据合成数据标注。其中数据合成通过ICL给LLM看若干示例生成输入文本X和输出标签Y;数据标注则基于已有的输入文本X,让LLM来标注相应的输出标签Y。

第二部分介绍如何使用LLM作为EmbedderBackbone

第三部分介绍如何使用LLM理解文本嵌入,分为长上下文压缩嵌入反转。有趣的是,这两个用于不同目的的下游任务,本质上可以使用相同的Embedder-LLM架构来统一建模

img

2.准备工作

  • 文本Embedding的历史
    • 统计机器学习时代:词袋模型(one-hot编码)到TF-IDF(稀疏向量),再到word-embedding(密集向量),以及一些机器学习方法比如潜在语义分析 (Latent Semantic Analysis LSA),Latent Dirichlet Allocation (LDA)等
    • 深度学习时代:早期的Word2Vec, GloVe,FastText将词语映射至较低维度的向量空间;BERT等预训练语言模型的出现则促使了预训练-微调范式的流行,后来为了弥补无监督和有监督训练的不足,对比学习应运而生,获得了良好效果
  • 训练数据
    • 可分为IR、QA、NLI、分类等任务类型,大部分的数据规模都在20-100K这个规模,领域上主要还是从网络收集

img

  • 下游评估任务
    • 传统任务:可分为STS(指标:Pearson 相关系数和Spearman相关系数),IR(指标:Recall,Accuracy,MAP,MRR,DCG,NDCG),通用Benchmark(MTEB)
    • 新兴任务:上下文压缩(指标:一般和LLM类似,比如压缩率,困惑度,ROUGE),嵌入反转(BLEU)

3.LLM增强文本嵌入

LLM合成数据的工作根据下游评测任务可以分为STS、IR和通用。可以看到,为了实现较好的泛化效果,一般都需要合成1M级别的数据,大部分的工作都同时在正例和负例两个方面做了工作,使用的LLM主要以闭源模型为主

img

3.1 数据合成

  • 指令合成:根据文档类型、任务类型等多种因素让LLM为任务数据生成多样化的指令,代表方法有I3、 E5-mistral
  • 正例合成
    • 对称正例:对于STS任务,锚点和正例可互相作为正例,一般使用NLI数据训练;最近的方法比如E5-mistral一般使用ICL或者微调LLM的方式让LLM合成NLI数据,AdaptCL使用强化学习让Embedder和LLM迭代更新
    • 非对称正例:对于IR任务,query和document一般是不对称的,最近的方法一般使用ICL、soft-prompt-tuning等方法让LLM为文档生成query,或者直接合成query和doc
  • 负例合成:一般聚焦于难负例合成
    • 基于NLI的负例:具有逻辑矛盾关系的文本作为难负例
    • 条件无关的负例:正常情况下看起来是正例,但当查询结合特定指令时是负例

3.2 数据标注

  • 训练数据监督信号

    • 使
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值