大语言模型常见任务及评测数据集汇总(二):90个数据集!

1. 命名实体识别(NER)

  1. CoNLL 2003:这是一个广泛使用的英文NER数据集,包含了多个领域的文本,如新闻、财经和政治。它识别四种类型的实体:人名、地名、组织名和其它专有名词。
  2. ACE (Automatic Content Extraction):ACE数据集是一个多语种的数据集,包含了英语、阿拉伯语和汉语等,它识别的实体类型更为丰富,包括人名、地名、组织名、时间表达式、数量表达式等。
  3. OntoNotes:这是一个大规模的英文数据集,包含了多种类型的文本,如新闻、对话和文本文档。它识别的实体类型包括人名、地名、组织名、时间表达式等。
  4. WNUT (Word-level Nested NER):这是一个英文NER数据集,特别关注嵌套实体和稀有实体类型的识别。
  5. BC5CDR (BioCreative V Chemical Disease Relation):这是一个生物医学领域的数据集,专注于化学物质和疾病的识别。
  6. NCBI Disease:这是一个专注于疾病实体识别的生物医学数据集。
  7. MIT Movie Dataset:这是一个包含电影领域实体的数据集,如演员名、电影名、角色名等。
  8. Chinese NER datasets:例如MSRA (Microsoft Research Asia)提供的中文NER数据集,以及People’s Daily和Weibo NER数据集,这些都是中文NER任务的常用数据集。
  9. GENIA:这是一个生物医学领域的数据集,专注于基因和蛋白质等生物医学实体的识别。
  10. Reuters-21578:这是一个新闻数据集,包含了大量的财经新闻,可以用于财经领域的实体识别。

2. 自然语言生成(NLG)

  1. WMT News Commentary:这是一个多语言的新闻评论数据集,常用于机器翻译任务,但也可以用于NLG,因为它包含了大量的新闻文章。
  2. Gutenberg电子书语料库:这是一个包含超过60,000本免费电子书的语料库,可以用来训练文本生成模型。
  3. Common Crawl:一个庞大的网络爬取数据集,包含了互联网上大量的网页文本,用于训练大规模的语言模型。
  4. WebText:由OpenAI创建的一个高质量的网络文本数据集,通过过滤和清洗Common Crawl数据得到。
  5. BookCorpus:一个从网络上抓取的包含多种领域书籍的文本数据集,常用于语言模型的预训练。
  6. Yahoo! Answers:这个数据集包含了来自Yahoo! Answers的用户提问和回答,可以用于训练对话和问答生成模型。
  7. Reddit Comments:这个数据集包含了Reddit上的评论,可以用于训练生成对话和评论的模型。
  8. Twitter:Twitter数据集通常包含大量的推文,可以用于训练生成推文的模型。
  9. arXiv:一个包含物理学、数学、计算机科学等领域预印本论文的数据集,用于训练特定领域的文本生成模型。
  10. WritingPrompts:一个包含创意写作提示和用户生成的故事的数据集,常用于文本生成任务。

3. 对话系统

  1. Switchboard:这是一个广泛使用的英语电话对话数据集,包含了超过2,400个电话对话,用于训练和评估对话系统。
  2. DialoGPT:由微软发布的一个大规模的英语对话数据集,包含了超过1.4亿个对话示例。
  3. Ubuntu Dialogue Corpus:这是一个基于互联网中Ubuntu社区论坛的对话数据集,包含了超过1百万个对话回合。
  4. Cornell Movie-Dialogs Corpus:这个数据集包含了电影中的对话,共有超过220,000个对话台词,来自10,292个电影角色。
  5. Facebook Dialogues:这个数据集包含了来自Facebook的150万对对话,用于训练对话生成模型。
  6. Twitter Dialogues:这个数据集包含了来自Twitter的对话,用于训练社交媒体对话系统。
  7. CamRest676:这是一个面向餐馆领域的对话数据集,包含了676个对话。
  8. Frames:这是一个多领域的对话数据集,包含了与电影、餐厅、旅游等主题相关的对话。
  9. MultiWOZ:这是一个多领域、多轮次的对话数据集,包含了10,000个对话,涉及多个领域,如餐馆、酒店、景点等。
  10. Persona-Chat:这个数据集包含了来自Twitter的对话,每个对话者都有一个与之相关的人物角色(persona),用于训练具有个性和背景知识的对话系统。

4. 信息抽取

  1. ACE (Automatic Content Extraction):ACE事件数据集是一个广泛使用的数据集,用于实体识别、关系抽取和事件抽取任务。它包含了多种语言的文本,如英语、阿拉伯语和汉语。
  2. CoNLL 2003:虽然这个数据集主要用于命名实体识别(NER),但它也常用于信息抽取任务,因为它提供了标注的实体信息。
  3. NYT (New York Times) Annotated Corpus:这个数据集包含了来自纽约时报的文章,以及其中的实体、关系和事件标注。
  4. TAC KBP (Text Analysis Conference Knowledge Base Population):TAC KBP提供了一系列的数据集,用于实体链接、关系抽取和事件抽取等任务。
  5. Re3 (Relation Extraction by Reconstruction):这是一个关系抽取数据集,它包含了从维基百科和纽约时报中提取的关系三元组。
  6. Financial Phrase Bank:这是一个金融领域的数据集,包含了金融文档中的关键短语和实体。
  7. MIT Movie Dataset:这个数据集包含了电影领域的实体和关系,如演员名、电影名、角色名等。
  8. Genia:这是一个生物医学领域的数据集,专注于基因和蛋白质等生物医学实体的识别。
  9. PubMed Abstracts:这是一个包含科学论文摘要的数据集,可以用于抽取科学文献中的关键信息。
  10. Wikipedia:维基百科的英文或其它语言版本,包含了大量的知识性文本,可以用于训练信息抽取模型。

5. 内容审核

  1. Jigsaw Toxic Comment Classification Challenge:由Jigsaw提供的数据集,包含了各种有毒评论,如仇恨言论、侮辱性语言、淫秽内容等。
  2. HateCheck:这是一个用于评估仇恨言论检测模型的数据集,包含了各种仇恨言论的示例。
  3. Twitter Hate Speech Detection:这个数据集包含了来自Twitter的带有仇恨言论标签的推文。
  4. Wikipedia Toxicity Dataset:这个数据集包含了维基百科的评论,每条评论都被标注了是否有毒。
  5. Civil Comments:这个数据集包含了来自Civil Comments网站的评论,每条评论都被标注了是否有毒。
  6. YouTube Spam Collection:这个数据集包含了YouTube视频的评论,用于垃圾评论的检测。
  7. DHSI (Distributed Hate Speech Identification):这是一个多语言的仇恨言论检测数据集,包含了英语、西班牙语和阿拉伯语的仇恨言论示例。
  8. OLID (Online Life Discrimination):这是一个多语言的在线歧视检测数据集,包含了英语、西班牙语和法语的数据。
  9. FNLP (Fake News and Misinformation Detection):这是一个用于检测假新闻和错误信息的数据集。
  10. PERSPECTIVE API:虽然不是一个公开的数据集,但Google的PERSPECTIVE API提供了一个用于检测有毒内容的服务,可以用来训练和评估内容审核模型。

6. 语义搜索

  1. MS MARCO (Microsoft Machine Reading Comprehension):这个数据集包含了真实用户的查询和从网上爬取的相关文档,用于训练和评估机器阅读理解和语义搜索任务。
  2. TREC (Text REtrieval Conference) Data:TREC提供了一个广泛用于信息检索和语义搜索评估的数据集,包含了多个领域的查询和文档。
  3. Robust04:这是TREC数据集的一个子集,包含了大约500,000篇文档和250个查询,常用于语义搜索任务。
  4. BEIR (Benchmarking Embeddings for Information Retrieval):这是一个包含多个数据集的基准,用于评估信息检索和语义搜索任务,包含了多个领域的查询和文档。
  5. WikiQA:这是一个问答数据集,包含了来自维基百科的查询和相关的段落,可以用于训练语义搜索模型。
  6. Quora Duplicate Questions:这个数据集包含了来自Quora的问题和相关的答案,可以用于训练模型以识别语义上相似的问题。
  7. Yahoo! Answers:这个数据集包含了来自Yahoo! Answers的用户提问和回答,可以用于训练语义搜索模型。
  8. Amazon Product Reviews:这个数据集包含了亚马逊产品评论,可以用于训练模型以根据用户的查询返回相关的产品评论。
  9. Twitter:Twitter数据集通常包含大量的推文,可以用于训练模型以根据用户的查询返回相关的推文。
  10. PubMed:这是一个包含科学论文的数据集,可以用于训练模型以根据用户的查询返回相关的科学文献。

7. 语音识别

  1. LibriSpeech:这是一个包含大量英文有声书籍的语料库,常用于训练和评估英文语音识别系统。
  2. VoxForge:这是一个开源的语音识别数据集,包含了多种语言的语音数据,用户可以自由下载和使用。
  3. TIMIT:这是一个广泛使用的英文语音识别数据集,包含了大量的语音样本和对应的文本转录。
  4. WSJ (Wall Street Journal):这是一个包含-wsj杂志文章语音录音的数据集,常用于评估语音识别系统。
  5. CHiME (Cambridge Hindi Medium English):这是一个用于研究在噪声环境下语音识别的数据集,包含了带噪声的英文语音数据。
  6. Switchboard:这是一个包含电话对话录音的数据集,常用于训练和评估对话语音识别系统。
  7. Common Voice:这是一个由Mozilla发起的开源项目,旨在收集全球范围内的语音数据,以用于训练语音识别系统。
  8. THCHS-30:这是一个中文语音识别数据集,包含了30小时的普通话语音录音。
  9. Aishell:这是一个大规模的中文语音识别数据集,包含了近1500小时的普通话语音录音。
  10. Free ST Chinese Mandarin Corpus:这是一个中文语音识别数据集,包含了大约100小时的普通话语音录音。

8. 机器阅读理解

  1. SQuAD (Stanford Question Answering Dataset):这是一个非常流行的问答数据集,包含了10万多个问题,这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案,这个答案是从相应的文章中抽取的。
  2. MS MARCO (Microsoft Machine Reading Comprehension):这个数据集包含了真实用户的查询和从网上爬取的相关文档,用于训练和评估机器阅读理解和语义搜索任务。
  3. DuReader:这是由百度创建的一个大规模中文阅读理解数据集,包含了30万多个真实用户提出的问题,以及从网上爬取的相关文档。
  4. CoQA (Conversational Question Answering):这是一个对话式问答数据集,包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
  5. TriviaQA:这个数据集包含了95万个问题,这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案,这个答案是从一个大的、无结构的文本语料库中抽取的。
  6. Natural Questions:这是一个真实世界的问题数据集,包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
  7. WebQA:这是一个中文的问答数据集,包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。
  8. HotpotQA:这是一个需要通过多个文档进行信息检索和推理的数据集,旨在评估模型的深层次理解能力。
  9. DROP (Dense Reading Comprehension over Paragraphs):这个数据集包含了需要数值推理和计数的问题,用于评估模型对文本中具体数值的理解能力。
  10. RACE (ReAding Comprehension for English Exam):这是一个针对英语考试中的阅读理解题目设计的数据集,包含了四选一的选择题。

9. 代码生成

  1. GitHub:GitHub是一个庞大的代码托管平台,包含了大量的开源代码项目。这些代码项目可以用于训练模型以生成代码。
  2. CodeSearchNet:这是一个包含自然语言查询和相应代码片段的数据集,用于训练模型以根据自然语言描述搜索代码。
  3. DeepCode:这是一个包含代码片段和相应的自然语言描述的数据集,用于训练模型以生成代码描述。
  4. BigQuery Public Datasets - GitHub Repositories:这是一个包含GitHub仓库元数据和代码的数据集,可以用于训练模型以生成代码。
  5. Rosetta:这是一个由DeepMind发布的数据集,包含了大量的代码片段和相应的自然语言描述。
  6. CoNaLa:这是一个包含自然语言问题和相应代码片段的数据集,用于训练模型以回答与代码相关的问题。
  7. Stack Overflow:这是一个广泛使用的编程社区和问答网站,包含了大量的编程问题和答案,可以用于训练模型以生成代码。
  8. LeetCode:这是一个在线编程竞赛平台,包含了大量的编程题目和用户提交的代码解决方案,可以用于训练模型以生成代码。
  9. Codeforces:这是一个在线编程竞赛平台,包含了大量的编程题目和用户提交的代码解决方案,可以用于训练模型以生成代码。
  10. HackerRank:这是一个在线编程技能评估平台,包含了大量的编程题目和用户提交的代码解决方案,可以用于训练模型以生成代码。
  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰淇淋百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值