📖标题:Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data
🌐来源:arXiv, 2505.05427
🌟摘要
🔸随着大型语言模型 (LLM) 的快速发展,数据质量已成为提高模型性能的关键因素。模型驱动的数据过滤越来越成为获取高质量数据的主要方法。然而,它仍然面临两个主要挑战:(1)缺乏有效的数据验证策略,难以及时提供数据质量的反馈; (2) 训练分类器的种子数据选择缺乏明确的标准,严重依赖人类专业知识,引入了一定程度的主观性。
🔸为了解决第一个挑战,我们引入了一种有效的验证策略,该策略能够以最少的计算成本快速评估数据对 LLM 训练的影响。为了解决第二个挑战,我们基于高质量种子数据有利于 LLM 训练的假设,并通过集成所提出的验证策略,我们优化了正样本和负样本的选择,并提出了一种高效的数据过滤管道。该管道不仅提高了过滤效率、分类器质量和稳健性,而且显着降低了实验和推理成本。此外,为了有效地过滤高质量的数据,我们采用了基于 fastText 的轻量级分类器,并成功地将过滤管道应用于两个广泛使用的预训练语料库 FineWeb 和 Chinese FineWeb 数据集,从而产生更高质量的 Ultra-FineWeb 数据集。
🔸Ultra-FineWeb 包含大约 1 万亿个英语标记和 120 亿个中文标记。实证结果表明,在 Ultra-FineWeb 上训练的 LLM 在多个基准任务上表现出显着的性能改进,验证了我们的管道在提高数据质量和训练效率方面的有效性。数据在https://huggingface.co/datasets/openbmb/UltraFineWeb
🛎️文章简介
🔸研究问题:如何有效地过滤和验证高质量的训练数据,以提升语言模型(LLM)的训练效果?
🔸主要贡献:论文提出了一种高效的数据过滤管道和验证策略,创建了高质量的Ultra-FineWeb数据集,并显著提高了LLM的训练性能。
📝重点思路
🔸设计并实现了一种高效的数据过滤管道,包括快速验证策略,确保数据质量并优化过滤效率。
🔸采用轻量级分类器(基于fastText)以减少推理成本,同时保持竞争性能。
🔸通过选择高质量的种子数据来训练分类器,确保所选样本能够提高LLM的训练效果。
🔸实施多轮过滤和验证流程,逐步更新高质量种子池,以优化数据选择策略。
🔎分析总结
🔸实验结果表明,使用Ultra-FineWeb训练的模型在多个基准任务上显著优于使用FineWeb和FineWeb-edu训练的模型。
🔸通过高质量数据过滤管道生成的Ultra-FineWeb数据集在英语和中文的多个评估标准上均表现出显著的性能提升。
🔸交叉使用多分类器的正样本推断结果能够进一步提升模型性能,表明数据的多样性对分类器的有效性至关重要。
💡个人观点
论文的核心就是用fastText分类器进行数据筛选,大幅降低了计算资源消耗,同时确保了数据质量,从而在资源有限的情况下有效提升了LLM的训练效果。