探索大语言模型（LLM）：部分数据集介绍

sagima_sdu

于 2024-03-13 15:15:26 发布

阅读量972

点赞数 6

分类专栏：大模型文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45498383/article/details/136681223

版权

大模型专栏收录该内容

12 篇文章

订阅专栏

探索大语言模型（LLM）的宝库：精选数据集介绍

在人工智能的黄金时代，大语言模型（LLM）的发展正以惊人的速度推进。它们不仅改变了我们与机器交互的方式，还在持续拓展技术的边界。作为这一进程的核心，数据集扮演着不可或缺的角色。下面分享一些我精心整理的LLM数据集，这些数据集各具特色，是研究和开发大语言模型不可多得的资源。

维基百科数据集

地址： Hugging Face - 维基百科数据集
内容： 这个数据集来源于2023年7月20日的中文维基百科dump存档，经过筛选保留了254,547条高质量的词条，总大小约为524MB。这份集中且纯净的数据资源，是理解多样化知识的绝佳起点。

百度百科数据集

地址： GitHub - 百度百科数据集
内容： 这个庞大的数据集包含了约4.35GB的内容，命名为563w_baidubaike.json.7z，是中文领域里丰富的知识宝库。

C4_zh 语料库

地址： GitHub - C4_zh 语料库
内容： C4是目前可用的最大语言数据集之一，涵盖了互联网上超过3.65亿个域的资料，总计超过1560亿个token。C4_zh是其中文部分，由三个部分组成，总大小约为21GB，是一个极为庞大和全面的中文语料库。

悟道WuDaoCorpora

地址： 悟道WuDaoCorpora - 数据宝库
内容： 由中文悟道团队开源的200G数据集，下载后的压缩包大小为63.8GB。这个数据集为中文自然语言处理提供了一个宽广的平台。

shibing624/alpaca-zh

地址： Hugging Face - shibing624/alpaca-zh
内容： 参照Alpaca方法，基于GPT-4得到的约5万条self-instruct数据，为指令式任务提供了丰富的样本。

Instruction Tuning with GPT-4

地址： GitHub - GPT-4 LLM
内容： 旨在共享由GPT-4生成的数据，帮助构建遵循指令的LLM，适用于监督学习和强化学习，是理解和应用GPT-4能力的重要资源。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sagima_sdu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。