1. 文本分类
1.1. 中文文本分类数据集:
-
- THUCNews:清华大学推出的中文新闻文本数据集,包含了74万篇新闻文章,覆盖了10个类别。
- LCQMC:哈尔滨工业大学发布的数据集,主要用于中文句子匹配任务,也常用于文本分类。
- BQ Corpus:同样用于中文句子匹配,也可用于文本分类。
1.2. 英文文本分类数据集:
-
- IMDb:包含50,000条影评数据,分为正面和负面两类,常用于情感分析。
- 20 Newsgroups:包含约20,000条新闻组文档,分为20个类别。
- AG News:包含超过1百万条新闻文章,分为4个类别。
- Yahoo! Answers:包含约1.4百万条来自Yahoo! Answers的数据,分为10个类别。
- DBpedia:从维基百科抽取的14个类别的数据集,包含560,000个训练样本和70,000个测试样本。
1.3. 多语言文本分类数据集:
-
- MultiNLI:包含433,000个英文句子对,用于自然语言推理任务,也适用于文本分类。
- XNLI:扩展的MultiNLI,包含15种语言的100,000个句子对。
2. 机器翻译
2.1. 英文-中文翻译数据集:
-
- WMT’14 English-French:广泛使用的英文-法语翻译数据集,包含了约40亿个词对。
- WMT’16 English-German:另一个广泛使用的英文-德语翻译数据集,包含了约40亿个词对。
- WMT’17 English-Chinese:英文-中文翻译数据集,包含了约20亿个词对。
- IWSLT:国际工作坊口语翻译评测(International Workshop on Spoken Language Translation)提供的数据集,包含多个语言对的翻译数据,其中包括英文-中文。
2.2. 其他语言对翻译数据集:
-
- WMT’14 English-Russian:英文-俄语翻译数据集,包含了约20亿个词对。
- WMT’14 English-Spanish:英文-西班牙语翻译数据集,包含了约20亿个词对。
- WMT’14 English-Czech:英文-捷克语翻译数据集,包含了约10亿个词对。
- WMT’14 English-Hebrew:英文-希伯来语翻译数据集,包含了约5亿个词对。
2.3. 多语言翻译数据集:
-
- TED Talks:包含多种语言对的翻译数据,主要来自于TED演讲的翻译。
- ParaCrawl:一个大规模的多语言平行语料库,包含了多种欧洲语言的翻译数据。
3. 问答系统
- SQuAD (Stanford Question Answering Dataset):这是一个非常流行的问答数据集,包含了10万多个问题,这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案,这个答案是从相应的文章中抽取的。
- MS MARCO (Microsoft Machine Reading Comprehension):这个数据集由微软创建,包含了10万多个真实用户的查询,以及从网上爬取的相关文档。这些查询和文档被用来创建问题和答案对。
- DuReader:这是由百度创建的一个大规模中文阅读理解数据集,包含了30万多个真实用户提出的问题,以及从网上爬取的相关文档。
- CoQA (Conversational Question Answering):这是一个对话式问答数据集,包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
- TriviaQA:这个数据集包含了95万个问题,这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案,这个答案是从一个大的、无结构的文本语料库中抽取的。
- Natural Questions:这是一个真实世界的问题数据集,包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
- WebQA:这是一个中文的问答数据集,包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。
4. 情感分析
- IMDb:这是一个广泛使用的电影评论数据集,包含了25,000条训练数据和25,000条测试数据,分为正面和负面两类。
- Twitter:Twitter情感分析数据集通常包含大量的推文,这些推文被标注为正面、负面或中性情绪。例如,Sentiment140数据集包含了160,000条带情感标签的推文。
- Amazon Product Reviews:这个数据集包含了数百万条亚马逊产品评论,每条评论都有一个评分和文本内容,可以用于二分类或多分类情感分析。
- Yelp Reviews:Yelp提供的数据集包含了大量的用户评论,这些评论有关餐馆、服务和其他业务,每条评论都有一个评分,可以用于情感分析。
- Stanford Sentiment Treebank (SST):这是一个基于句子解析树的情感分析数据集,包含了11,855条句子,每个单词都被标注了情感标签。
- Multi-domain Sentiment Dataset (MV):这个数据集包含了多个领域的评论,如书籍、DVD、电子产品等,每条评论都有一个情感评分。
- Customer Review Dataset:这是一个包含多种产品类别的顾客评论数据集,可以用于多分类情感分析。
- EmoInt:这是一个针对情感强度识别的数据集,包含了12,000条带有情感强度标签的推文。
- Irony Detection Datasets:这些数据集专门用于讽刺和幽默的检测,如SemEval任务中的讽刺检测子任务。
- Financial Sentiment Datasets:这些数据集包含了财经新闻和报告,用于分析市场情绪和趋势。
5. 文本生成
- BookCorpus:一个从网络上抓取的包含多种领域书籍的文本数据集,常用于语言模型的预训练。
- Wikipedia:维基百科的英文或其它语言版本,包含了大量的知识性文本,是训练语言模型的重要数据源。
- Common Crawl:一个庞大的网络爬取数据集,包含了互联网上大量的网页文本,用于训练大规模的语言模型。
- WebText:由OpenAI创建的一个高质量的网络文本数据集,通过过滤和清洗Common Crawl数据得到。
- Gutenberg电子书语料库:一个包含超过60,000本免费电子书的语料库,可以用来训练文本生成模型。
- arXiv:一个包含物理学、数学、计算机科学等领域预印本论文的数据集,用于训练特定领域的文本生成模型。
- OpenWebText:一个开源的、经过清洗的网页文本数据集,从Reddit上分享的链接中提取得到。
- StoryCloze:一个用于故事理解和生成的数据集,包含了大量的故事句子和结尾。
- WritingPrompts:一个包含创意写作提示和用户生成的故事的数据集,常用于文本生成任务。
- Yahoo! Answers Comprehensive Questions and Answers:一个包含用户提问和回答的数据集,可以用于训练对话和问答生成模型。
6. 文本相似度
- SNLI (Stanford Natural Language Inference):虽然这是一个用于自然语言推理的数据集,但它也常用于文本相似度任务,因为它包含了大量的句子对,并标注了它们之间的关系(矛盾、中立、蕴含)。
- STS (Semantic Textual Similarity):这是一个广泛使用的文本相似度数据集,包含了多个子集,如STS Benchmark、STS 2012-2016等。这些数据集提供了句子对的相似度评分,通常是在1到5的范围内。
- MSR Paraphrase Corpus:这个数据集包含了大量的句子对,每个句子对都被标注为是否是 paraphrase。
- Quora Question Pairs:这个数据集包含了来自Quora的问题对,每个问题对都被标注为是否是相同的。
- Twitter URL Correlation:这个数据集包含了来自Twitter的URL和推文对,每个对都被标注为是否是相关的。
- SICK (Sentences Involving Compositional Knowledge):这是一个包含了句子对的数据集,每个句子对都有一个相似度评分和相关性的标签。
- Semantic Evaluation (SemEval) Shared Tasks:SemEval每年都会举办共享任务,其中就包括文本相似度任务,因此会产生大量的数据集。
7. 摘要生成
- CNN/Daily Mail:这是一个广泛使用的数据集,包含了新闻文章和它们的摘要。每个文章都被提取了若干个关键信息,并生成了一个简洁的摘要。
- Gigaword:这个数据集包含了大量的新闻文章标题和它们的摘要。摘要通常是由文章的第一句话组成的。
- NYT (New York Times) Annotated Corpus:这个数据集包含了来自纽约时报的文章和它们的摘要。这些摘要通常是由专业编辑撰写的。
- PubMed Abstracts:这是一个包含科学论文摘要的数据集,通常用于生成科学文献的摘要。
- arXiv Abstracts:这个数据集包含了物理学、数学、计算机科学等领域预印本论文的摘要。
- LCSTS (Large Scale Chinese Short Text Summarization):这是一个大规模的中文短文本摘要数据集,包含了大量的新闻标题和摘要。
- XSum (Extreme Summarization):这是一个极端摘要数据集,其中的摘要是由单一句子组成的,通常是从文章中提取的最关键的信息。
- WikiHow:这个数据集包含了来自WikiHow网站的文章和它们的摘要。这些文章通常包含了如何做某事的步骤。
- Amazon Reviews:这个数据集包含了亚马逊产品评论,可以用于生成产品评论的摘要。
- Reddit TIFU Stories:这个数据集包含了Reddit上的"TIFU"(Today I Fucked Up)故事,可以用于生成故事的摘要。
7. 语音识别
- LibriSpeech:这是一个包含大量英文有声书籍的语料库,常用于训练和评估英文语音识别系统。
- VoxForge:这是一个开源的语音识别数据集,包含了多种语言的语音数据,用户可以自由下载和使用。
- TIMIT:这是一个广泛使用的英文语音识别数据集,包含了大量的语音样本和对应的文本转录。
- WSJ (Wall Street Journal):这是一个包含-wsj杂志文章语音录音的数据集,常用于评估语音识别系统。
- CHiME (Cambridge Hindi Medium English):这是一个用于研究在噪声环境下语音识别的数据集,包含了带噪声的英文语音数据。
- Switchboard:这是一个包含电话对话录音的数据集,常用于训练和评估对话语音识别系统。
- Common Voice:这是一个由Mozilla发起的开源项目,旨在收集全球范围内的语音数据,以用于训练语音识别系统。
- THCHS-30:这是一个中文语音识别数据集,包含了30小时的普通话语音录音。
- Aishell:这是一个大规模的中文语音识别数据集,包含了近1500小时的普通话语音录音。
- Free ST Chinese Mandarin Corpus:这是一个中文语音识别数据集,包含了大约100小时的普通话语音录音。
8. 推理任务
- COPA (Causal Relations):这是一个因果关系推理的数据集,包含了关于因果关系的陈述,要求模型选择正确的因果关系。
- WiC (Word in Context):这个数据集包含了单词的同义词对,要求模型判断两个句子是否具有相同的含义。
- MultiRC (Multi-Sentence Reading Comprehension):这是一个多句子阅读理解的数据集,要求模型理解句子之间的关系。
- ARC (Adversarial Reading Comprehension):这是一个对抗性的阅读理解数据集,包含了多个子任务,如因果关系推理、事实性判断等。
- Social IQA (Social Intelligence Questions Answering):这个数据集包含了关于社会常识的推理问题,要求模型理解社会背景和人物关系。
- ReClor (Reasoning in Commitment and Obligation Relations):这是一个推理数据集,要求模型理解和应用义务关系。
- TREC-6 (Text REtrieval Conference):这个数据集包含了多个领域的推理问题,如数学推理、逻辑推理等。
- LogiQA (Logical Question Answering):这是一个逻辑推理数据集,包含了多种逻辑关系的问题。
- REALM (REasoning Across RElated MEntities):这个数据集包含了多个子任务,如事实性判断、因果关系推理等。
- ProPara:这是一个基于段落的推理数据集,包含了多种推理任务,如因果关系推理、逻辑推