📖标题:Data-Efficient Pretraining with Group-Level Data Influence Modeling
🌐来源:arXiv, 2502.14709
🌟摘要
🔸数据高效的预训练已显示出提高缩放定律的巨大潜力。本文认为有效的预训练数据应该在组级别进行管理,将一组数据点作为一个整体而不是独立的贡献者。为此,我们提出了一种新的数据高效预训练方法GroupLevel Data Influence Modeling (Group-MATES),该方法捕获和优化组级数据效用。
🔸具体来说,Group-MATES 通过使用数据集局部探测预训练模型来收集 oracle 组级影响。然后,它微调关系数据影响模型以将预言机近似为单个影响的关系加权聚合。微调模型通过最大化其组级影响预测来选择数据子集,并使用影响感知聚类来实现有效的推理。在
🔸 DCLM 基准上的实验表明,GroupMATES 在 DCLMBaseline 上的 22 个下游任务上实现了 10% 的相对核心分数改进,比基于个体影响的方法提高了 5%,建立了一个新的最先进的结果。进一步的分析强调了关系数据影响模型在捕获数据点之间复杂交互方面的有效性。
🛎️文章简介
🔸研究问题:预训练过程中如何有效选择和优化训练数据,以最大化模型性能并降低计算成本。
🔸主要贡献:论文提出了一种新的数据选择方法Group-MATES,通过建模和优化组级影响力,显著提升了数据高效预训练的效果,并在DCLM基准上取得了新的最优表现。
📝重点思路
🔸组级数据影响建模:引入了一种参数化的方法,直接建模和优化组级数据的影响力。
🔸关系数据影响模型:扩展了个体数据影响模型,以学习数据对的组级影响映射,强调数据点之间的复杂交互。
🔸影响感知聚类:通过对训练数据进行聚类,减少计算成本,同时保持数据点间的有意义交互,从而提高推断效率。
🔸引导式采样:在模型训练中,通过引导式策略收集边缘案例,以增强模型对稀有和重要数据的学习能力。
🔎分析总结
🔸Group-MATES在DCLM基准上相较于随机选择实现了10.1%和4.2%的核心得分提升,显示出其在数据选择上的优越性。
🔸组级数据影响建模显著提高了模型的泛化能力,相较于基于个体影响的数据选择方法,Group-MATES表现出更好的效果。
🔸关系测量在数据选择中起到了重要作用,当去除关系项时,整体性能提升幅度显著下降,说明组级影响建模是提升预训练效率的关键。
🔸引导式采样有效地提升了样本的多样性,增强了模型对边缘案例的识别能力,从而提高了组级影响的准确性。
💡个人观点
论文强调了数据点间的关系在数据选择中的重要性,突出群体级别数据影响建模的重要性。