斯坦福:基于多样性的LLM主动学习

在这里插入图片描述

📖标题:Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
🌐来源:arXiv, 2409.11378

摘要

🔸在指令数据上微调大型语言模型是丰富预训练期间学习的知识和提高指令遵循能力的重要一步。随着指令数据集数量的持续增长,选择正确的数据以实现最佳结果变得越来越重要。
🔸在这项工作中,我们提出了一个突出的问题:如何确定有效训练的最佳数据子集?虽然现有的大部分研究主要强调子集选择的局部标准,如实例质量,但我们认为,专注于数据多样性的全局方法更为关键。我们的方法利用k-means聚类来确保所选子集有效地代表整个数据集。我们提出了一种受主动学习技术启发的迭代细化方法,用于从集群中重新采样实例,在每次训练迭代中重新评估每个集群的重要性和采样权重。这种方法使我们能够减少异常值的影响,并自动过滤掉包含低质量数据的聚类。
🔸通过对自然语言推理、一般世界知识、代码和数学推理任务的广泛评估,以及对不同家族的模型进行微调,我们观察到持续的改进,比随机选择提高了7%,比最先进的采样方法提高了3.8%。我们的工作强调了在微调LLM以提高各种评估任务的性能时,多样性优先采样的重要性。我们的代码在https://github.com/for-ai/iterative-data-selection.

🛎️文章简介

🔸研究问题:如何在有限的计算资源下,通过选择多样化的指令数据子集来优化语言模型的微调过程?
🔸主要贡献:论文提出了一种可扩展的迭代采样和优化方法,显著提高了数据子集选择的多样性和效率,并在多种任务上展示了性能提升。

📝重点思路

🔺相关工作

🔸LLM数据选择:以前关于数据选择的工作可以大致分为两类,删除示例侧重低质量、有毒、重复等,选择最优子集侧重手动选择复杂性和多样性。近期工作号包括梯度的相似性搜索、LLM质量评分等。
🔸主动学习和语言模型:主动学习基于“并非所有数据都是平等的”这一基本前提,针对特定任务或能力确定最有价值的、信息最丰富的学习数据,研究内容包括基于相似性的少样本主动学习、基于熵的主动偏好学习等。

🔺论文方案

🔸分析现有方法:系统分析了各种聚类和采样方法,发现k-means聚类在选择最优多样化的指令数据子集方面特别有效,尤其是在结合质量采样步骤时。
🔸静态数据选择:首先对固定的数据子集进行采样,这里最初使用k-means方法,然后结合质量采样提出改进的kMQ算法,在确保选择的子集具有高度的多样性后,对模型进行微调。
🔸迭代数据选择:考虑到采样和微调之间没有信息交换,通过早期训练反馈不断调整聚类的权重,以优化数据子集的选择。

🔎分析总结

🔸k-means聚类的效果:已经能够超越随机采样,并达到与强基线方法(如Deita和QDIT)相当的结果,且这种方法在计算上更为高效。
🔸kMQ算法的改进:质量采样的改进在多样性和代表性方面表现优异,能够与先进的采样技术相媲美,甚至在某些情况下超越它们。
🔸迭代采样的优势:在保持训练预算不变的情况下,显著提高了模型的性能,特别是在多样性较高的任务上。
🔸多样性的重要性:实验结果强调了多样性为中心的采样方法的重要性,通过聚类和加权采样,选择了一个紧凑但具有代表性的数据子集。
🔸反馈循环的必要性:考虑微调模型的反馈循环是至关重要的,以确保采样过程与模型的学习行为相一致,从而实现最佳结果。

💡个人观点

论文的核心是基于多样性的数据选择,通过反馈循环的迭代实现学习行为的一致性。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值