大语言模型常见任务及评测数据集汇总（一）：70 余个数据集!

最新推荐文章于 2025-04-16 09:56:42 发布

大F的智能小课

最新推荐文章于 2025-04-16 09:56:42 发布

阅读量5.8k

点赞数 5

分类专栏：大模型理论和实战文章标签：人工智能

本文链接：https://blog.csdn.net/zengzizi/article/details/137251140

版权

大模型理论和实战专栏收录该内容

53 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

这篇博客汇总了多个语言模型常见任务的数据集，包括文本分类、机器翻译、问答系统等多个领域。在文本分类方面，提到了THUCNews、LCQMC等中文数据集，以及IMDb、20 Newsgroups等英文数据集。机器翻译数据集如WMT系列和IWSLT，涵盖了多种语言对。此外，还列举了问答数据集SQuAD和MS MARCO，以及情感分析、文本生成、文本相似度等相关数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 文本分类

1.1. 中文文本分类数据集：

- THUCNews：清华大学推出的中文新闻文本数据集，包含了74万篇新闻文章，覆盖了10个类别。
- LCQMC：哈尔滨工业大学发布的数据集，主要用于中文句子匹配任务，也常用于文本分类。
- BQ Corpus：同样用于中文句子匹配，也可用于文本分类。

1.2. 英文文本分类数据集：

- IMDb：包含50,000条影评数据，分为正面和负面两类，常用于情感分析。
- 20 Newsgroups：包含约20,000条新闻组文档，分为20个类别。
- AG News：包含超过1百万条新闻文章，分为4个类别。
- Yahoo! Answers：包含约1.4百万条来自Yahoo! Answers的数据，分为10个类别。
- DBpedia：从维基百科抽取的14个类别的数据集，包含560,000个训练样本和70,000个测试样本。

1.3. 多语言文本分类数据集：

- MultiNLI：包含433,000个英文句子对，用于自然语言推理任务，也适用于文本分类。
- XNLI：扩展的MultiNLI，包含15种语言的100,000个句子对。

2. 机器翻译

2.1. 英文-中文翻译数据集：

- WMT’14 English-French：广泛使用的英文-法语翻译数据集，包含了约40亿个词对。
- WMT’16 English-German：另一个广泛使用的英文-德语翻译数据集，包含了约40亿个词对。
- WMT’17 English-Chinese：英文-中文翻译数据集，包含了约20亿个词对。
- IWSLT：国际工作坊口语翻译评测（International Workshop on Spoken Language Translation）提供的数据集，包含多个语言对的翻译数据，其中包括英文-中文。

2.2. 其他语言对翻译数据集：

- WMT’14 English-Russian：英文-俄语翻译数据集，包含了约20亿个词对。
- WMT’14 English-Spanish：英文-西班牙语翻译数据集，包含了约20亿个词对。
- WMT’14 English-Czech：英文-捷克语翻译数据集，包含了约10亿个词对。
- WMT’14 English-Hebrew：英文-希伯来语翻译数据集，包含了约5亿个词对。

2.3. 多语言翻译数据集：

- TED Talks：包含多种语言对的翻译数据，主要来自于TED演讲的翻译。
- ParaCrawl：一个大规模的多语言平行语料库，包含了多种欧洲语言的翻译数据。

3. 问答系统

SQuAD (Stanford Question Answering Dataset)：这是一个非常流行的问答数据集，包含了10万多个问题，这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案，这个答案是从相应的文章中抽取的。
MS MARCO (Microsoft Machine Reading Comprehension)：这个数据集由微软创建，包含了10万多个真实用户的查询，以及从网上爬取的相关文档。这些查询和文档被用来创建问题和答案对。
DuReader：这是由百度创建的一个大规模中文阅读理解数据集，包含了30万多个真实用户提出的问题，以及从网上爬取的相关文档。
CoQA (Conversational Question Answering)：这是一个对话式问答数据集，包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
TriviaQA：这个数据集包含了95万个问题，这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案，这个答案是从一个大的、无结构的文本语料库中抽取的。
Natural Questions：这是一个真实世界的问题数据集，包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
WebQA：这是一个中文的问答数据集，包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。

4. 情感分析

IMDb：这是一个广泛使用的电影评论数据集，包含了25,000条训练数据和25,000条测试数据，分为正面和负面两类。
Twitter：Twitter情感分析数据集通常包含大量的推文，这些推文被标注为正面、负面或中性情绪。例如，Sentiment140数据集包含了160,000条带情感标签的推文。
Amazon Product Reviews：这个数据集包含了数百万条亚马逊产品评论，每条评论都有一个评分和文本内容，可以用于二分类或多分类情感分析。
Yelp Reviews：Yelp提供的数据集包含了大量的用户评论，这些评论有关餐馆、服务和其他业务，每条评论都有一个评分，可以用于情感分析。
Stanford Sentiment Treebank (SST)：这是一个基于句子解析树的情感分析数据集，包含了11,855条句子，每个单词都被标注了情感标签。
Multi-domain Sentiment Dataset (MV)：这个数据集包含了多个领域的评论，如书籍、DVD、电子产品等，每条评论都有一个情感评分。
Customer Review Dataset：这是一个包含多种产品类别的顾客评论数据集，可以用于多分类情感分析。
EmoInt：这是一个针对情感强度识别的数据集，包含了12,000条带有情感强度标签的推文。
Irony Detection Datasets：这些数据集专门用于讽刺和幽默的检测，如SemEval任务中的讽刺检测子任务。
Financial Sentiment Datasets：这些数据集包含了财经新闻和报告，用于分析市场情绪和趋势。

5. 文本生成

BookCorpus：一个从网络上抓取的包含多种领域书籍的文本数据集，常用于语言模型的预训练。
Wikipedia：维基百科的英文或其它语言版本，包含了大量的知识性文本，是训练语言模型的重要数据源。
Common Crawl：一个庞大的网络爬取数据集，包含了互联网上大量的网页文本，用于训练大规模的语言模型。
WebText：由OpenAI创建的一个高质量的网络文本数据集，通过过滤和清洗Common Crawl数据得到。
Gutenberg电子书语料库：一个包含超过60,000本免费电子书的语料库，可以用来训练文本生成模型。
arXiv：一个包含物理学、数学、计算机科学等领域预印本论文的数据集，用于训练特定领域的文本生成模型。
OpenWebText：一个开源的、经过清洗的网页文本数据集，从Reddit上分享的链接中提取得到。
StoryCloze：一个用于故事理解和生成的数据集，包含了大量的故事句子和结尾。
WritingPrompts：一个包含创意写作提示和用户生成的故事的数据集，常用于文本生成任务。
Yahoo! Answers Comprehensive Questions and Answers：一个包含用户提问和回答的数据集，可以用于训练对话和问答生成模型。

6. 文本相似度

SNLI (Stanford Natural Language Inference)：虽然这是一个用于自然语言推理的数据集，但它也常用于文本相似度任务，因为它包含了大量的句子对，并标注了它们之间的关系（矛盾、中立、蕴含）。
STS (Semantic Textual Similarity)：这是一个广泛使用的文本相似度数据集，包含了多个子集，如STS Benchmark、STS 2012-2016等。这些数据集提供了句子对的相似度评分，通常是在1到5的范围内。
MSR Paraphrase Corpus：这个数据集包含了大量的句子对，每个句子对都被标注为是否是 paraphrase。
Quora Question Pairs：这个数据集包含了来自Quora的问题对，每个问题对都被标注为是否是相同的。
Twitter URL Correlation：这个数据集包含了来自Twitter的URL和推文对，每个对都被标注为是否是相关的。
SICK (Sentences Involving Compositional Knowledge)：这是一个包含了句子对的数据集，每个句子对都有一个相似度评分和相关性的标签。
Semantic Evaluation (SemEval) Shared Tasks：SemEval每年都会举办共享任务，其中就包括文本相似度任务，因此会产生大量的数据集。

7. 摘要生成

CNN/Daily Mail：这是一个广泛使用的数据集，包含了新闻文章和它们的摘要。每个文章都被提取了若干个关键信息，并生成了一个简洁的摘要。
Gigaword：这个数据集包含了大量的新闻文章标题和它们的摘要。摘要通常是由文章的第一句话组成的。
NYT (New York Times) Annotated Corpus：这个数据集包含了来自纽约时报的文章和它们的摘要。这些摘要通常是由专业编辑撰写的。
PubMed Abstracts：这是一个包含科学论文摘要的数据集，通常用于生成科学文献的摘要。
arXiv Abstracts：这个数据集包含了物理学、数学、计算机科学等领域预印本论文的摘要。
LCSTS (Large Scale Chinese Short Text Summarization)：这是一个大规模的中文短文本摘要数据集，包含了大量的新闻标题和摘要。
XSum (Extreme Summarization)：这是一个极端摘要数据集，其中的摘要是由单一句子组成的，通常是从文章中提取的最关键的信息。
WikiHow：这个数据集包含了来自WikiHow网站的文章和它们的摘要。这些文章通常包含了如何做某事的步骤。
Amazon Reviews：这个数据集包含了亚马逊产品评论，可以用于生成产品评论的摘要。
Reddit TIFU Stories：这个数据集包含了Reddit上的"TIFU"（Today I Fucked Up）故事，可以用于生成故事的摘要。

7. 语音识别

LibriSpeech：这是一个包含大量英文有声书籍的语料库，常用于训练和评估英文语音识别系统。
VoxForge：这是一个开源的语音识别数据集，包含了多种语言的语音数据，用户可以自由下载和使用。
TIMIT：这是一个广泛使用的英文语音识别数据集，包含了大量的语音样本和对应的文本转录。
WSJ (Wall Street Journal)：这是一个包含-wsj杂志文章语音录音的数据集，常用于评估语音识别系统。
CHiME (Cambridge Hindi Medium English)：这是一个用于研究在噪声环境下语音识别的数据集，包含了带噪声的英文语音数据。
Switchboard：这是一个包含电话对话录音的数据集，常用于训练和评估对话语音识别系统。
Common Voice：这是一个由Mozilla发起的开源项目，旨在收集全球范围内的语音数据，以用于训练语音识别系统。
THCHS-30：这是一个中文语音识别数据集，包含了30小时的普通话语音录音。
Aishell：这是一个大规模的中文语音识别数据集，包含了近1500小时的普通话语音录音。
Free ST Chinese Mandarin Corpus：这是一个中文语音识别数据集，包含了大约100小时的普通话语音录音。

8. 推理任务

COPA (Causal Relations)：这是一个因果关系推理的数据集，包含了关于因果关系的陈述，要求模型选择正确的因果关系。
WiC (Word in Context)：这个数据集包含了单词的同义词对，要求模型判断两个句子是否具有相同的含义。
MultiRC (Multi-Sentence Reading Comprehension)：这是一个多句子阅读理解的数据集，要求模型理解句子之间的关系。
ARC (Adversarial Reading Comprehension)：这是一个对抗性的阅读理解数据集，包含了多个子任务，如因果关系推理、事实性判断等。
Social IQA (Social Intelligence Questions Answering)：这个数据集包含了关于社会常识的推理问题，要求模型理解社会背景和人物关系。
ReClor (Reasoning in Commitment and Obligation Relations)：这是一个推理数据集，要求模型理解和应用义务关系。
TREC-6 (Text REtrieval Conference)：这个数据集包含了多个领域的推理问题，如数学推理、逻辑推理等。
LogiQA (Logical Question Answering)：这是一个逻辑推理数据集，包含了多种逻辑关系的问题。
REALM (REasoning Across RElated MEntities)：这个数据集包含了多个子任务，如事实性判断、因果关系推理等。
ProPara：这是一个基于段落的推理数据集，包含了多种推理任务，如因果关系推理、逻辑推