大模型实战
文章平均质量分 82
从数据集、模型、评测、入门到实践一站式
冰淇淋百宝箱
这个作者很懒,什么都没留下…
展开
-
大语言模型常见任务及评测数据集汇总(二):90个数据集!
1. 命名实体识别(NER)CoNLL 2003:这是一个广泛使用的英文NER数据集,包含了多个领域的文本,如新闻、财经和政治。它识别四种类型的实体:人名、地名、组织名和其它专有名词。 ACE (Automatic Content Extraction):ACE数据集是一个多语种的数据集,包含了英语、阿拉伯语和汉语等,它识别的实体类型更为丰富,包括人名、地名、组织名、时间表达式、数量表达式等。 OntoNotes:这是一个大规模的英文数据集,包含了多种类型的文本,如新闻、对话和文本文档。它识别的实体原创 2024-04-07 04:15:00 · 695 阅读 · 0 评论 -
大语言模型常见任务及评测数据集汇总(一):70 余个数据集!
1. 文本分类1.1. 中文文本分类数据集: THUCNews:清华大学推出的中文新闻文本数据集,包含了74万篇新闻文章,覆盖了10个类别。 LCQMC:哈尔滨工业大学发布的数据集,主要用于中文句子匹配任务,也常用于文本分类。 BQ Corpus:同样用于中文句子匹配,也可用于文本分类。 1.2. 英文文本分类数据集: IMDb:包含50,000条影评数据,分为正面和负面两类,常用于情感分析。 20 Newsgroups:包含约20,000条新闻组文档,分为20个类别。原创 2024-04-06 05:00:00 · 1374 阅读 · 0 评论