📖标题:CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models
🌐来源:arXiv, 2410.18505
摘要
🔸我们介绍CCI3.0-HQ,这是中国企业互联网3.0(CCI3.0)的高质量500GB子集,使用一种新型的两级混合过滤管道开发,可显著提高数据质量。
🔸为了评估其有效性,我们在不同数据集的100B代币上从头开始训练了一个0.5B参数模型,与CCI3.0、SkyPile和WanjuanV1相比,在零样本设置下,在10个基准上实现了优异的性能。高质量的过滤过程有效地将Qwen2-72B指令模型的能力提取到一个紧凑的0.5B模型中,为中国网络数据分类获得了最佳的F1分数。我们相信,这个开放获取的数据集将有助于更广泛地获取高质量的语言模型。
🛎️文章简介
🔸研究问题:现有的中文开源数据集在规模和质量上存在不足,限制了高性能中文语言模型的发展。
🔸主要贡献:论文提出了CCI3.0-HQ,一个大规模高质量的中文预训练数据集,通过两阶段的混合过滤策略显著提升了数据质量。