谷歌:对比学习将LLM转为嵌入模型

在这里插入图片描述

📖标题:Gemini Embedding: Generalizable Embeddings from Gemini
🌐来源:arXiv, 2503.07891

🌟摘要

🔸在本报告中,我们介绍了 Gemini 嵌入,这是一种最先进的嵌入模型,它利用了 Gemini、Google 最有能力的大型语言模型的力量。利用 Gemini 固有的多语言和代码理解能力,Gemini Embedding 为跨越多种语言和文本模式的文本生成高度可概括的嵌入。Gemini Embedding 生成的表示可以预先计算并应用于各种下游任务,包括分类、相似性、聚类、排名和检索。
🔸在大规模多语言文本嵌入基准 (MMTEB) 上进行评估,其中包括 250+ 种语言的一百多个任务,Gemini Embedding 大大优于先前的最先进模型,显示出嵌入质量的显着改进。在 MMTEB 的多语言、英语和代码基准测试中实现了最先进的性能,我们的统一模型在广泛的任务选择中表现出强大的能力,并超越了专门的特定领域模型。

🛎️文章简介

🔸研究问题:如何利用大语言模型(LLM)在多种任务和语言上生成通用且高性能的嵌入模型,尤其过拟合问题及如何提高嵌入模型的泛化能力。
🔸主要贡献:论文提出了一种名为Gemini Embedding的新型嵌入模型,该模型通过从强大的Gemini LLM初始化,并结合对训练数据的多阶段过滤和合成策略,取得了在多个基准测试中的最佳性能。

📝重点思路

🔸采用Gemini LLM作为嵌入模型的初始化基础,通过对数据的精细处理和合成生成,提高训练数据的质量。
🔸使用对比学习目标(contrastive learning),通过噪声对比估计(NCE)损失函数进行模型训练,以增强嵌入模型的语义表示能力。
🔸实施两阶段的训练流程,包括预微调阶段,以最大化多样化训练数据的暴露。
🔸采用模型混合(Model Soup)技术,将多个微调的检查点进行参数平均,以获得更优的最终模型。

🔎分析总结

🔸Gemini Embedding在多个任务(如分类、检索等)和语言上表现出色,特别是在MTEB(多语言文本嵌入基准)中取得了最佳的Borda排名和平均分数,超越了之前的顶级模型。
🔸通过合成生成的数据和经过筛选的训练数据,显著提高了模型的性能,展示了在处理低资源语言时的优秀能力。
🔸实验结果表明,任务的多样性对模型的微调效果至关重要,即使在仅使用英语数据进行训练时,仍能在多语言评估中取得优异成绩。

💡个人观点

论文的核心在于将LLM的强大能力转化为嵌入模型的训练优势,通过精细的数据处理和合成策略提升嵌入学习的广泛适用性与高效性。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值