智源:LLM中文高质量互联网语料库

在这里插入图片描述

📖标题:CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models
🌐来源:arXiv, 2410.18505

摘要

🔸我们介绍CCI3.0-HQ,这是中国企业互联网3.0(CCI3.0)的高质量500GB子集,使用一种新型的两级混合过滤管道开发,可显著提高数据质量。
🔸为了评估其有效性,我们在不同数据集的100B代币上从头开始训练了一个0.5B参数模型,与CCI3.0、SkyPile和WanjuanV1相比,在零样本设置下,在10个基准上实现了优异的性能。高质量的过滤过程有效地将Qwen2-72B指令模型的能力提取到一个紧凑的0.5B模型中,为中国网络数据分类获得了最佳的F1分数。我们相信,这个开放获取的数据集将有助于更广泛地获取高质量的语言模型。

🛎️文章简介

🔸研究问题:现有的中文开源数据集在规模和质量上存在不足,限制了高性能中文语言模型的发展。
🔸主要贡献:论文提出了CCI3.0-HQ,一个大规模高质量的中文预训练数据集,通过两阶段的混合过滤策略显著提升了数据质量。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值