腾讯:充分利用负样本学习文本嵌入

在这里插入图片描述

📖标题:Conan-embedding: General Text Embedding with More and Better Negative Samples
🌐来源:arXiv, 2408.15710

摘要

🔸随着RAG的日益普及,嵌入模型的能力也越来越受到关注。嵌入模型主要是通过对比学习来训练的,负面例子是一个关键组成部分。以前的工作已经提出了各种硬负挖掘策略,但这些策略通常用作预处理步骤。
🔸在本文中,我们提出了柯南嵌入模型,该模型最大限度地利用了更多和更高质量的负例。具体来说,由于模型处理预处理负例的能力在训练过程中不断发展,我们提出了动态硬负挖掘方法,使模型在整个训练过程中暴露于更具挑战性的负例。其次,对比学习需要尽可能多的负例,但受到GPU内存约束的限制。因此,我们使用跨gpu平衡损失来为嵌入训练提供更多的负例,并在多个任务之间平衡批大小。此外,我们还发现llm的快速反应对可以用于嵌入训练。
🔸我们的方法有效地增强了嵌入模型的能力,目前在海量文本嵌入基准(MTEB)中文排行榜上排名第一。

🛎️文章简介

🔸研究问题:如何最大化利用更多和更高质量的负样本,以提高文本嵌入模型的性能?
🔸主要贡献:论文提出了Conan-Embedding模型,通过动态硬负样本挖掘和跨GPU批次平衡损失,显著提升了模型在文本嵌入基准测试中的表现,取得了CMTEB的第一名。

📝重点思路

🔺相关工作

🔸嵌入模型将单词、句子或文档映射到高维连续空间中,允许相似的文本具有更接近的向量表示。
🔸嵌入模型不仅增强了文本数据的可操作性,而且还显着提高了各种下游任务的性能,在文本表示、信息检索和生成任务中发挥了至关重要的作用,特别是在检索增强生成(RAG)技术中,直接影响生成结果的质量。
🔸嵌入模型通常是通过对比学习来训练的,负例的质量对于模型性能至关重要,但现有方法在负例选择方面仍然存在缺陷。

🔺两阶段训练

🔸预训练:收集了7.5亿对数据,通过bge-large模型评分,过滤后选择了其中4亿对,应用InfoNCE损失和In-Batch Negative进行训练。
🔸监督学习:针对不同的下游任务进行特定于任务的微调,包括检索和语义相似性

🔺其他优化

🔸动态硬负样本挖掘:允许模型在训练过程中动态适应变化的训练数据,持续更新硬负例挖掘。
🔸跨GPU批量平衡损失(CBB):通过平衡多个任务间的负样本数量,提高训练效率和效果。

🔎分析总结

🔸动态硬负样本挖掘和CBB损失显著优于传统的直接微调方法,特别是在检索和重排序任务中,模型的召回能力得到显著提升。
🔸CBB损失曲线平滑且持续下降,最终损失远小于单独任务损失之和,表明该方法有效减少了不同任务向量空间之间的差距。

💡个人观点

论文的核心是动态硬负样本挖掘和CBB损失,以提高文本嵌入模型的性能和训练效率。

附录

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值