1. 命名实体识别(NER)
- CoNLL 2003:这是一个广泛使用的英文NER数据集,包含了多个领域的文本,如新闻、财经和政治。它识别四种类型的实体:人名、地名、组织名和其它专有名词。
- ACE (Automatic Content Extraction):ACE数据集是一个多语种的数据集,包含了英语、阿拉伯语和汉语等,它识别的实体类型更为丰富,包括人名、地名、组织名、时间表达式、数量表达式等。
- OntoNotes:这是一个大规模的英文数据集,包含了多种类型的文本,如新闻、对话和文本文档。它识别的实体类型包括人名、地名、组织名、时间表达式等。
- WNUT (Word-level Nested NER):这是一个英文NER数据集,特别关注嵌套实体和稀有实体类型的识别。
- BC5CDR (BioCreative V Chemical Disease Relation):这是一个生物医学领域的数据集,专注于化学物质和疾病的识别。
- NCBI Disease:这是一个专注于疾病实体识别的生物医学数据集。
- MIT Movie Dataset:这是一个包含电影领域实体的数据集,如演员名、电影名、角色名等。
- Chinese NER datasets:例如MSRA (Microsoft Research Asia)提供的中文NER数据集,以及People’s Daily和Weibo NER数据集,这些都是中文NER任务的常用数据集。
- GENIA:这是一个生物医学领域的数据集,专注于基因和蛋白质等生物医学实体的识别。
- Reuters-21578:这是一个新闻数据集,包含了大量的财经新闻,可以用于财经领域的实体识别。
2. 自然语言生成(NLG)
- WMT News Commentary:这是一个多语言的新闻评论数据集,常用于机器翻译任务,但也可以用于NLG,因为它包含了大量的新闻文章。
- Gutenberg电子书语料库:这是一个包含超过60,000本免费电子书的语料库,可以用来训练文本生成模型。
- Common Crawl:一个庞大的网络爬取数据集,包含了互联网上大量的网页文本,用于训练大规模的语言模型。
- WebText:由OpenAI创建的一个高质量的网络文本数据集,通过过滤和清洗Common Crawl数据得到。
- BookCorpus:一个从网络上抓取的包含多种领域书籍的文本数据集,常用于语言模型的预训练。
- Yahoo! Answers:这个数据集包含了来自Yahoo! Answers的用户提问和回答,可以用于训练对话和问答生成模型。
- Reddit Comments:这个数据集包含了Reddit上的评论,可以用于训练生成对话和评论的模型。
- Twitter:Twitter数据集通常包含大量的推文,可以用于训练生成推文的模型。
- arXiv:一个包含物理学、数学、计算机科学等领域预印本论文的数据集,用于训练特定领域的文本生成模型。
- WritingPrompts:一个包含创意写作提示和用户生成的故事的数据集,常用于文本生成任务。
3. 对话系统
- Switchboard:这是一个广泛使用的英语电话对话数据集,包含了超过2,400个电话对话,用于训练和评估对话系统。
- DialoGPT:由微软发布的一个大规模的英语对话数据集,包含了超过1.4亿个对话示例。
- Ubuntu Dialogue Corpus:这是一个基于互联网中Ubuntu社区论坛的对话数据集,包含了超过1百万个对话回合。
- Cornell Movie-Dialogs Corpus:这个数据集包含了电影中的对话,共有超过220,000个对话台词,来自10,292个电影角色。
- Facebook Dialogues:这个数据集包含了来自Facebook的150万对对话,用于训练对话生成模型。
- Twitter Dialogues:这个数据集包含了来自Twitter的对话,用于训练社交媒体对话系统。
- CamRest676:这是一个面向餐馆领域的对话数据集,包含了676个对话。
- Frames:这是一个多领域的对话数据集,包含了与电影、餐厅、旅游等主题相关的对话。
- MultiWOZ:这是一个多领域、多轮次的对话数据集,包含了10,000个对话,涉及多个领域,如餐馆、酒店、景点等。
- Persona-Chat:这个数据集包含了来自Twitter的对话,每个对话者都有一个与之相关的人物角色(persona),用于训练具有个性和背景知识的对话系统。
4. 信息抽取
- ACE (Automatic Content Extraction):ACE事件数据集是一个广泛使用的数据集,用于实体识别、关系抽取和事件抽取任务。它包含了多种语言的文本,如英语、阿拉伯语和汉语。
- CoNLL 2003:虽然这个数据集主要用于命名实体识别(NER),但它也常用于信息抽取任务,因为它提供了标注的实体信息。
- NYT (New York Times) Annotated Corpus:这个数据集包含了来自纽约时报的文章,以及其中的实体、关系和事件标注。
- TAC KBP (Text Analysis Conference Knowledge Base Population):TAC KBP提供了一系列的数据集,用于实体链接、关系抽取和事件抽取等任务。
- Re3 (Relation Extraction by Reconstruction):这是一个关系抽取数据集,它包含了从维基百科和纽约时报中提取的关系三元组。
- Financial Phrase Bank:这是一个金融领域的数据集,包含了金融文档中的关键短语和实体。
- MIT Movie Dataset:这个数据集包含了电影领域的实体和关系,如演员名、电影名、角色名等。
- Genia:这是一个生物医学领域的数据集,专注于基因和蛋白质等生物医学实体的识别。
- PubMed Abstracts:这是一个包含科学论文摘要的数据集,可以用于抽取科学文献中的关键信息。
- Wikipedia:维基百科的英文或其它语言版本,包含了大量的知识性文本,可以用于训练信息抽取模型。
5. 内容审核
- Jigsaw Toxic Comment Classification Challenge:由Jigsaw提供的数据集,包含了各种有毒评论,如仇恨言论、侮辱性语言、淫秽内容等。
- HateCheck:这是一个用于评估仇恨言论检测模型的数据集,包含了各种仇恨言论的示例。
- Twitter Hate Speech Detection:这个数据集包含了来自Twitter的带有仇恨言论标签的推文。
- Wikipedia Toxicity Dataset:这个数据集包含了维基百科的评论,每条评论都被标注了是否有毒。
- Civil Comments:这个数据集包含了来自Civil Comments网站的评论,每条评论都被标注了是否有毒。
- YouTube Spam Collection:这个数据集包含了YouTube视频的评论,用于垃圾评论的检测。
- DHSI (Distributed Hate Speech Identification):这是一个多语言的仇恨言论检测数据集,包含了英语、西班牙语和阿拉伯语的仇恨言论示例。
- OLID (Online Life Discrimination):这是一个多语言的在线歧视检测数据集,包含了英语、西班牙语和法语的数据。
- FNLP (Fake News and Misinformation Detection):这是一个用于检测假新闻和错误信息的数据集。
- PERSPECTIVE API:虽然不是一个公开的数据集,但Google的PERSPECTIVE API提供了一个用于检测有毒内容的服务,可以用来训练和评估内容审核模型。
6. 语义搜索
- MS MARCO (Microsoft Machine Reading Comprehension):这个数据集包含了真实用户的查询和从网上爬取的相关文档,用于训练和评估机器阅读理解和语义搜索任务。
- TREC (Text REtrieval Conference) Data:TREC提供了一个广泛用于信息检索和语义搜索评估的数据集,包含了多个领域的查询和文档。
- Robust04:这是TREC数据集的一个子集,包含了大约500,000篇文档和250个查询,常用于语义搜索任务。
- BEIR (Benchmarking Embeddings for Information Retrieval):这是一个包含多个数据集的基准,用于评估信息检索和语义搜索任务,包含了多个领域的查询和文档。
- WikiQA:这是一个问答数据集,包含了来自维基百科的查询和相关的段落,可以用于训练语义搜索模型。
- Quora Duplicate Questions:这个数据集包含了来自Quora的问题和相关的答案,可以用于训练模型以识别语义上相似的问题。
- Yahoo! Answers:这个数据集包含了来自Yahoo! Answers的用户提问和回答,可以用于训练语义搜索模型。
- Amazon Product Reviews:这个数据集包含了亚马逊产品评论,可以用于训练模型以根据用户的查询返回相关的产品评论。
- Twitter:Twitter数据集通常包含大量的推文,可以用于训练模型以根据用户的查询返回相关的推文。
- PubMed:这是一个包含科学论文的数据集,可以用于训练模型以根据用户的查询返回相关的科学文献。
7. 语音识别
- LibriSpeech:这是一个包含大量英文有声书籍的语料库,常用于训练和评估英文语音识别系统。
- VoxForge:这是一个开源的语音识别数据集,包含了多种语言的语音数据,用户可以自由下载和使用。
- TIMIT:这是一个广泛使用的英文语音识别数据集,包含了大量的语音样本和对应的文本转录。
- WSJ (Wall Street Journal):这是一个包含-wsj杂志文章语音录音的数据集,常用于评估语音识别系统。
- CHiME (Cambridge Hindi Medium English):这是一个用于研究在噪声环境下语音识别的数据集,包含了带噪声的英文语音数据。
- Switchboard:这是一个包含电话对话录音的数据集,常用于训练和评估对话语音识别系统。
- Common Voice:这是一个由Mozilla发起的开源项目,旨在收集全球范围内的语音数据,以用于训练语音识别系统。
- THCHS-30:这是一个中文语音识别数据集,包含了30小时的普通话语音录音。
- Aishell:这是一个大规模的中文语音识别数据集,包含了近1500小时的普通话语音录音。
- Free ST Chinese Mandarin Corpus:这是一个中文语音识别数据集,包含了大约100小时的普通话语音录音。
8. 机器阅读理解
- SQuAD (Stanford Question Answering Dataset):这是一个非常流行的问答数据集,包含了10万多个问题,这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案,这个答案是从相应的文章中抽取的。
- MS MARCO (Microsoft Machine Reading Comprehension):这个数据集包含了真实用户的查询和从网上爬取的相关文档,用于训练和评估机器阅读理解和语义搜索任务。
- DuReader:这是由百度创建的一个大规模中文阅读理解数据集,包含了30万多个真实用户提出的问题,以及从网上爬取的相关文档。
- CoQA (Conversational Question Answering):这是一个对话式问答数据集,包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
- TriviaQA:这个数据集包含了95万个问题,这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案,这个答案是从一个大的、无结构的文本语料库中抽取的。
- Natural Questions:这是一个真实世界的问题数据集,包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
- WebQA:这是一个中文的问答数据集,包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。
- HotpotQA:这是一个需要通过多个文档进行信息检索和推理的数据集,旨在评估模型的深层次理解能力。
- DROP (Dense Reading Comprehension over Paragraphs):这个数据集包含了需要数值推理和计数的问题,用于评估模型对文本中具体数值的理解能力。
- RACE (ReAding Comprehension for English Exam):这是一个针对英语考试中的阅读理解题目设计的数据集,包含了四选一的选择题。
9. 代码生成
- GitHub:GitHub是一个庞大的代码托管平台,包含了大量的开源代码项目。这些代码项目可以用于训练模型以生成代码。
- CodeSearchNet:这是一个包含自然语言查询和相应代码片段的数据集,用于训练模型以根据自然语言描述搜索代码。
- DeepCode:这是一个包含代码片段和相应的自然语言描述的数据集,用于训练模型以生成代码描述。
- BigQuery Public Datasets - GitHub Repositories:这是一个包含GitHub仓库元数据和代码的数据集,可以用于训练模型以生成代码。
- Rosetta:这是一个由DeepMind发布的数据集,包含了大量的代码片段和相应的自然语言描述。
- CoNaLa:这是一个包含自然语言问题和相应代码片段的数据集,用于训练模型以回答与代码相关的问题。
- Stack Overflow:这是一个广泛使用的编程社区和问答网站,包含了大量的编程问题和答案,可以用于训练模型以生成代码。
- LeetCode:这是一个在线编程竞赛平台,包含了大量的编程题目和用户提交的代码解决方案,可以用于训练模型以生成代码。
- Codeforces:这是一个在线编程竞赛平台,包含了大量的编程题目和用户提交的代码解决方案,可以用于训练模型以生成代码。
- HackerRank:这是一个在线编程技能评估平台,包含了大量的编程题目和用户提交的代码解决方案,可以用于训练模型以生成代码。