大语言模型常见任务及评测数据集汇总（二）：90个数据集！

最新推荐文章于 2024-06-28 17:04:13 发布

冰淇淋百宝箱

最新推荐文章于 2024-06-28 17:04:13 发布

阅读量950

点赞数 6

分类专栏：大模型实战文章标签：语言模型

本文链接：https://blog.csdn.net/zengzizi/article/details/137251161

版权

大模型实战专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 命名实体识别（NER）

CoNLL 2003：这是一个广泛使用的英文NER数据集，包含了多个领域的文本，如新闻、财经和政治。它识别四种类型的实体：人名、地名、组织名和其它专有名词。
ACE (Automatic Content Extraction)：ACE数据集是一个多语种的数据集，包含了英语、阿拉伯语和汉语等，它识别的实体类型更为丰富，包括人名、地名、组织名、时间表达式、数量表达式等。
OntoNotes：这是一个大规模的英文数据集，包含了多种类型的文本，如新闻、对话和文本文档。它识别的实体类型包括人名、地名、组织名、时间表达式等。
WNUT (Word-level Nested NER)：这是一个英文NER数据集，特别关注嵌套实体和稀有实体类型的识别。
BC5CDR (BioCreative V Chemical Disease Relation)：这是一个生物医学领域的数据集，专注于化学物质和疾病的识别。
NCBI Disease：这是一个专注于疾病实体识别的生物医学数据集。
MIT Movie Dataset：这是一个包含电影领域实体的数据集，如演员名、电影名、角色名等。
Chinese NER datasets：例如MSRA (Microsoft Research Asia)提供的中文NER数据集，以及People’s Daily和Weibo NER数据集，这些都是中文NER任务的常用数据集。
GENIA：这是一个生物医学领域的数据集，专注于基因和蛋白质等生物医学实体的识别。
Reuters-21578：这是一个新闻数据集，包含了大量的财经新闻，可以用于财经领域的实体识别。

2. 自然语言生成（NLG）

WMT News Commentary：这是一个多语言的新闻评论数据集，常用于机器翻译任务，但也可以用于NLG，因为它包含了大量的新闻文章。
Gutenberg电子书语料库：这是一个包含超过60,000本免费电子书的语料库，可以用来训练文本生成模型。
Common Crawl：一个庞大的网络爬取数据集，包含了互联网上大量的网页文本，用于训练大规模的语言模型。
WebText：由OpenAI创建的一个高质量的网络文本数据集，通过过滤和清洗Common Crawl数据得到。
BookCorpus：一个从网络上抓取的包含多种领域书籍的文本数据集，常用于语言模型的预训练。
Yahoo! Answers：这个数据集包含了来自Yahoo! Answers的用户提问和回答，可以用于训练对话和问答生成模型。
Reddit Comments：这个数据集包含了Reddit上的评论，可以用于训练生成对话和评论的模型。
Twitter：Twitter数据集通常包含大量的推文，可以用于训练生成推文的模型。
arXiv：一个包含物理学、数学、计算机科学等领域预印本论文的数据集，用于训练特定领域的文本生成模型。
WritingPrompts：一个包含创意写作提示和用户生成的故事的数据集，常用于文本生成任务。

3. 对话系统

Switchboard：这是一个广泛使用的英语电话对话数据集，包含了超过2,400个电话对话，用于训练和评估对话系统。
DialoGPT：由微软发布的一个大规模的英语对话数据集，包含了超过1.4亿个对话示例。
Ubuntu Dialogue Corpus：这是一个基于互联网中Ubuntu社区论坛的对话数据集，包含了超过1百万个对话回合。
Cornell Movie-Dialogs Corpus：这个数据集包含了电影中的对话，共有超过220,000个对话台词，来自10,292个电影角色。
Facebook Dialogues：这个数据集包含了来自Facebook的150万对对话，用于训练对话生成模型。
Twitter Dialogues：这个数据集包含了来自Twitter的对话，用于训练社交媒体对话系统。
CamRest676：这是一个面向餐馆领域的对话数据集，包含了676个对话。
Frames：这是一个多领域的对话数据集，包含了与电影、餐厅、旅游等主题相关的对话。
MultiWOZ：这是一个多领域、多轮次的对话数据集，包含了10,000个对话，涉及多个领域，如餐馆、酒店、景点等。
Persona-Chat：这个数据集包含了来自Twitter的对话，每个对话者都有一个与之相关的人物角色（persona），用于训练具有个性和背景知识的对话系统。

4. 信息抽取

ACE (Automatic Content Extraction)：ACE事件数据集是一个广泛使用的数据集，用于实体识别、关系抽取和事件抽取任务。它包含了多种语言的文本，如英语、阿拉伯语和汉语。
CoNLL 2003：虽然这个数据集主要用于命名实体识别（NER），但它也常用于信息抽取任务，因为它提供了标注的实体信息。
NYT (New York Times) Annotated Corpus：这个数据集包含了来自纽约时报的文章，以及其中的实体、关系和事件标注。
TAC KBP (Text Analysis Conference Knowledge Base Population)：TAC KBP提供了一系列的数据集，用于实体链接、关系抽取和事件抽取等任务。
Re3 (Relation Extraction by Reconstruction)：这是一个关系抽取数据集，它包含了从维基百科和纽约时报中提取的关系三元组。
Financial Phrase Bank：这是一个金融领域的数据集，包含了金融文档中的关键短语和实体。
MIT Movie Dataset：这个数据集包含了电影领域的实体和关系，如演员名、电影名、角色名等。
Genia：这是一个生物医学领域的数据集，专注于基因和蛋白质等生物医学实体的识别。
PubMed Abstracts：这是一个包含科学论文摘要的数据集，可以用于抽取科学文献中的关键信息。
Wikipedia：维基百科的英文或其它语言版本，包含了大量的知识性文本，可以用于训练信息抽取模型。

5. 内容审核

Jigsaw Toxic Comment Classification Challenge：由Jigsaw提供的数据集，包含了各种有毒评论，如仇恨言论、侮辱性语言、淫秽内容等。
HateCheck：这是一个用于评估仇恨言论检测模型的数据集，包含了各种仇恨言论的示例。
Twitter Hate Speech Detection：这个数据集包含了来自Twitter的带有仇恨言论标签的推文。
Wikipedia Toxicity Dataset：这个数据集包含了维基百科的评论，每条评论都被标注了是否有毒。
Civil Comments：这个数据集包含了来自Civil Comments网站的评论，每条评论都被标注了是否有毒。
YouTube Spam Collection：这个数据集包含了YouTube视频的评论，用于垃圾评论的检测。
DHSI (Distributed Hate Speech Identification)：这是一个多语言的仇恨言论检测数据集，包含了英语、西班牙语和阿拉伯语的仇恨言论示例。
OLID (Online Life Discrimination)：这是一个多语言的在线歧视检测数据集，包含了英语、西班牙语和法语的数据。
FNLP (Fake News and Misinformation Detection)：这是一个用于检测假新闻和错误信息的数据集。
PERSPECTIVE API：虽然不是一个公开的数据集，但Google的PERSPECTIVE API提供了一个用于检测有毒内容的服务，可以用来训练和评估内容审核模型。

6. 语义搜索

MS MARCO (Microsoft Machine Reading Comprehension)：这个数据集包含了真实用户的查询和从网上爬取的相关文档，用于训练和评估机器阅读理解和语义搜索任务。
TREC (Text REtrieval Conference) Data：TREC提供了一个广泛用于信息检索和语义搜索评估的数据集，包含了多个领域的查询和文档。
Robust04：这是TREC数据集的一个子集，包含了大约500,000篇文档和250个查询，常用于语义搜索任务。
BEIR (Benchmarking Embeddings for Information Retrieval)：这是一个包含多个数据集的基准，用于评估信息检索和语义搜索任务，包含了多个领域的查询和文档。
WikiQA：这是一个问答数据集，包含了来自维基百科的查询和相关的段落，可以用于训练语义搜索模型。
Quora Duplicate Questions：这个数据集包含了来自Quora的问题和相关的答案，可以用于训练模型以识别语义上相似的问题。
Yahoo! Answers：这个数据集包含了来自Yahoo! Answers的用户提问和回答，可以用于训练语义搜索模型。
Amazon Product Reviews：这个数据集包含了亚马逊产品评论，可以用于训练模型以根据用户的查询返回相关的产品评论。
Twitter：Twitter数据集通常包含大量的推文，可以用于训练模型以根据用户的查询返回相关的推文。
PubMed：这是一个包含科学论文的数据集，可以用于训练模型以根据用户的查询返回相关的科学文献。

7. 语音识别

LibriSpeech：这是一个包含大量英文有声书籍的语料库，常用于训练和评估英文语音识别系统。
VoxForge：这是一个开源的语音识别数据集，包含了多种语言的语音数据，用户可以自由下载和使用。
TIMIT：这是一个广泛使用的英文语音识别数据集，包含了大量的语音样本和对应的文本转录。
WSJ (Wall Street Journal)：这是一个包含-wsj杂志文章语音录音的数据集，常用于评估语音识别系统。
CHiME (Cambridge Hindi Medium English)：这是一个用于研究在噪声环境下语音识别的数据集，包含了带噪声的英文语音数据。
Switchboard：这是一个包含电话对话录音的数据集，常用于训练和评估对话语音识别系统。
Common Voice：这是一个由Mozilla发起的开源项目，旨在收集全球范围内的语音数据，以用于训练语音识别系统。
THCHS-30：这是一个中文语音识别数据集，包含了30小时的普通话语音录音。
Aishell：这是一个大规模的中文语音识别数据集，包含了近1500小时的普通话语音录音。
Free ST Chinese Mandarin Corpus：这是一个中文语音识别数据集，包含了大约100小时的普通话语音录音。

8. 机器阅读理解

SQuAD (Stanford Question Answering Dataset)：这是一个非常流行的问答数据集，包含了10万多个问题，这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案，这个答案是从相应的文章中抽取的。
MS MARCO (Microsoft Machine Reading Comprehension)：这个数据集包含了真实用户的查询和从网上爬取的相关文档，用于训练和评估机器阅读理解和语义搜索任务。
DuReader：这是由百度创建的一个大规模中文阅读理解数据集，包含了30万多个真实用户提出的问题，以及从网上爬取的相关文档。
CoQA (Conversational Question Answering)：这是一个对话式问答数据集，包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
TriviaQA：这个数据集包含了95万个问题，这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案，这个答案是从一个大的、无结构的文本语料库中抽取的。
Natural Questions：这是一个真实世界的问题数据集，包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
WebQA：这是一个中文的问答数据集，包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。
HotpotQA：这是一个需要通过多个文档进行信息检索和推理的数据集，旨在评估模型的深层次理解能力。
DROP (Dense Reading Comprehension over Paragraphs)：这个数据集包含了需要数值推理和计数的问题，用于评估模型对文本中具体数值的理解能力。
RACE (ReAding Comprehension for English Exam)：这是一个针对英语考试中的阅读理解题目设计的数据集，包含了四选一的选择题。

9. 代码生成

GitHub：GitHub是一个庞大的代码托管平台，包含了大量的开源代码项目。这些代码项目可以用于训练模型以生成代码。
CodeSearchNet：这是一个包含自然语言查询和相应代码片段的数据集，用于训练模型以根据自然语言描述搜索代码。
DeepCode：这是一个包含代码片段和相应的自然语言描述的数据集，用于训练模型以生成代码描述。
BigQuery Public Datasets - GitHub Repositories：这是一个包含GitHub仓库元数据和代码的数据集，可以用于训练模型以生成代码。
Rosetta：这是一个由DeepMind发布的数据集，包含了大量的代码片段和相应的自然语言描述。
CoNaLa：这是一个包含自然语言问题和相应代码片段的数据集，用于训练模型以回答与代码相关的问题。
Stack Overflow：这是一个广泛使用的编程社区和问答网站，包含了大量的编程问题和答案，可以用于训练模型以生成代码。
LeetCode：这是一个在线编程竞赛平台，包含了大量的编程题目和用户提交的代码解决方案，可以用于训练模型以生成代码。
Codeforces：这是一个在线编程竞赛平台，包含了大量的编程题目和用户提交的代码解决方案，可以用于训练模型以生成代码。
HackerRank：这是一个在线编程技能评估平台，包含了大量的编程题目和用户提交的代码解决方案，可以用于训练模型以生成代码。

冰淇淋百宝箱

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
大语言模型常见任务及评测数据集汇总（二）：90个数据集！

1. 命名实体识别（NER）CoNLL 2003：这是一个广泛使用的英文NER数据集，包含了多个领域的文本，如新闻、财经和政治。它识别四种类型的实体：人名、地名、组织名和其它专有名词。 ACE (Automatic Content Extraction)：ACE数据集是一个多语种的数据集，包含了英语、阿拉伯语和汉语等，它识别的实体类型更为丰富，包括人名、地名、组织名、时间表达式、数量表达式等。 OntoNotes：这是一个大规模的英文数据集，包含了多种类型的文本，如新闻、对话和文本文档。它识别的实体
复制链接

扫一扫