探索大语言模型(LLM):部分数据集介绍

探索大语言模型(LLM)的宝库:精选数据集介绍

在人工智能的黄金时代,大语言模型(LLM)的发展正以惊人的速度推进。它们不仅改变了我们与机器交互的方式,还在持续拓展技术的边界。作为这一进程的核心,数据集扮演着不可或缺的角色。下面分享一些我精心整理的LLM数据集,这些数据集各具特色,是研究和开发大语言模型不可多得的资源。

维基百科数据集
  • 地址: Hugging Face - 维基百科数据集
  • 内容: 这个数据集来源于2023年7月20日的中文维基百科dump存档,经过筛选保留了254,547条高质量的词条,总大小约为524MB。这份集中且纯净的数据资源,是理解多样化知识的绝佳起点。
百度百科数据集
  • 地址: GitHub - 百度百科数据集
  • 内容: 这个庞大的数据集包含了约4.35GB的内容,命名为563w_baidubaike.json.7z,是中文领域里丰富的知识宝库。
C4_zh 语料库
  • 地址: GitHub - C4_zh 语料库
  • 内容: C4是目前可用的最大语言数据集之一,涵盖了互联网上超过3.65亿个域的资料,总计超过1560亿个token。C4_zh是其中文部分,由三个部分组成,总大小约为21GB,是一个极为庞大和全面的中文语料库。
悟道WuDaoCorpora
  • 地址: 悟道WuDaoCorpora - 数据宝库
  • 内容: 由中文悟道团队开源的200G数据集,下载后的压缩包大小为63.8GB。这个数据集为中文自然语言处理提供了一个宽广的平台。
shibing624/alpaca-zh
Instruction Tuning with GPT-4
  • 地址: GitHub - GPT-4 LLM
  • 内容: 旨在共享由GPT-4生成的数据,帮助构建遵循指令的LLM,适用于监督学习和强化学习,是理解和应用GPT-4能力的重要资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sagima_sdu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值