大语言模型实战手册：文本生成任务中，常用数据集有哪些？

最新推荐文章于 2024-08-25 09:30:17 发布

冰淇淋百宝箱

最新推荐文章于 2024-08-25 09:30:17 发布

阅读量847

点赞数 7

分类专栏：玩转大模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/zengzizi/article/details/137250663

版权

玩转大模型专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. 常用数据集：

Zero-SCROLLS：这是一个长文本评测数据集，包含十个自然语言任务的测试集，每个任务都要求对不同类型的长文本进行推理。例如，它包含了GovReport、SummScreenFD等摘要任务数据集，以及Qasper、NarrativeQA等问题解答数据集。
L-Eval：这个数据集从规模较小的类似公共数据集中重新标注数据和指令，以确保质量。它包含多种题型，如选择题、真假题、数学题、代码理解等，涵盖了法律、金融、学术论文等多个领域。
Ape210K：这是一个中文数据集，包含210k个中国小学水平的数学问题，每个问题都包含最佳答案和得出答案所需的方程式。
Belle：这个数据集包含了约350万条由BELLE项目生成的中文指令数据，用于评估各种模型。
Chinese Squad：这是一个中文机器阅读理解数据集，通过机器翻译加人工校正的方式从原始Squad转换而来。
CMRC 2018：这个数据集包含第二届「讯飞杯」中文机器阅读理解评测所使用的数据。
Ape210K：这是一个中文数据集，包含210k个中国小学水平的数学问题，每个问题都包含最佳答案和得出答案所需的方程式。
Belle：这是一个中文数据集，包含约350万条由BELLE项目生成的中文指令数据，用于评估各种模型。
Chinese Squad：这是一个中文机器阅读理解数据集，通过机器翻译加人工校正的方式从原始Squad转换而来。
CrossWOZ：这是一个中文任务导向对话数据集，包含5个场景的6k个对话和102k个句子。
Delta 阅读理解数据集 (DRCD)：这是一个通用领域繁体中文机器阅读理解资料集，包含来自2,108篇维基百科文章的10,014个段落和30,000多个问题。
Douban Conversation Corpus：这是一个中文会话语料库，包括训练数据集、开发集和一个基于检索的聊天机器人测试集。
DuReader：这是一个关注于机器阅读理解领域的基准数据集和模型，主要用于智能问答任务。
Math23K：这是一个为解决数学单词问题而创建的数据集，包含从互联网上爬取的23,162个中文问题。
MedDialog：这是一个大规模的医疗对话数据集，其中包含医生和患者之间的110万条对话和400万条话语。
ODSQA：这是一个用于中文问答的口语数据集，包含来自20位不同演讲者的3,000多个问题。
RedGPT：这是一个自动生成事实型对话数据集，其中包含5万条中文多轮对话。
The United Nations Parallel Corpus：这是一个联合国平行语料库，包含多种语言的联合国文档。

这些数据集各有特点，适用于不同的文本生成任务和模型评估。在选择数据集时，需要考虑模型的特定需求和任务的要求。随着自然语言处理领域的不断发展，这些数据集也在不断更新和扩展，以适应新的挑战和需求。

2. 如何构建得到的？

不同的数据集构建方式各异，取决于其目的和来源。以下是一些数据集构建的通用方法：

爬取与清洗：许多数据集从互联网上爬取文本数据，例如Common Crawl。这些数据通常需要经过清洗，以去除噪声和不相关的内容。
众包：有些数据集通过众包平台构建，如Amazon Mechanical Turk。众包允许研究人员从多个贡献者那里收集标注数据，用于训练和评估模型。
文本提取与转换：例如，WikiText数据集从维基百科文章中提取文本。有时，数据集会通过机器翻译和人工校正的方法从其他语言的数据集转换而来，如Chinese Squad。
专业领域数据收集：特定领域的数据集可能需要专业知识来收集和标注。例如，法律、金融或医学领域的数据集可能需要相关领域专家的参与。
公开数据集的扩展与改进：一些数据集基于现有的公开数据集构建，通过增加新的数据、改进标注质量或增加新的任务来扩展其功能，如L-Eval。
人工创作与标注：对于一些特定的任务，如数学问题解答，可能需要人工创作问题和答案，并进行标注，如Ape210K。

每个数据集的构建过程都是独特的，通常涉及多个步骤，包括数据收集、清洗、标注和验证。这些步骤确保数据集的质量和多样性，从而能够有效地训练和评估语言模型。

冰淇淋百宝箱

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
大语言模型实战手册：文本生成任务中，常用数据集有哪些？

这些数据集各有特点，适用于不同的文本生成任务和模型评估。在选择数据集时，需要考虑模型的特定需求和任务的要求。随着自然语言处理领域的不断发展，这些数据集也在不断更新和扩展，以适应新的挑战和需求。每个数据集的构建过程都是独特的，通常涉及多个步骤，包括数据收集、清洗、标注和验证。这些步骤确保数据集的质量和多样性，从而能够有效地训练和评估语言模型。不同的数据集构建方式各异，取决于其目的和来源。
复制链接

扫一扫