中文命名实体识别（NER）数据集大盘点（含下载）

AINLPer

已于 2023-04-24 20:53:35 修改

阅读量3.7k

点赞数 5

文章标签：人工智能开源

于 2023-04-24 20:52:30 首次发布

本文链接：https://blog.csdn.net/yinizhilianlove/article/details/130351747

版权

来源: AINLPer公众号（每日干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2023-4-024

引言

命名实体识别是自然语言处理研究的重要方向之一，目的是识别文本中的命名实体并将其归纳到相应的实体类型中。那么做命名实体识别就少不了数据集，经过一周的时间，终于把所有的能找到的数据集做了一下汇总，同时也分享给大家。说全网最全可能有点夸张，但真的尽力了。资料获取方式：关注 AINLPer公众号，后台回复：中文NER全

文娱NER–Youku

文娱NER数据集主要是基于youku视频相关标题制作的，该数据集包括包括了3大类（娱乐明星名、影视名、音乐名）、9小类实体类别（例如：动漫、电影、影视、综艺等），其中训练集8001条、验证集1000条、测试集1001条。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。最近Github更新时间是2022年。

电商NER–Taobao

电商NER数据集主要基于Taobao电商数据制作的一个命名实体数据集，该数据集包括了4大类(商品名称、商品型号、人名、地名)、9小类实体类别（电脑、汽车、日用品等）。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。其中，训练数据集6000条，验证数据集998条，测试数据集1000条。最近Github更新时间是2022年。

简历 NER–新浪财经

该数据集基于新浪财经(Sina Finance4)收集了一个简历数据集，其中包括中国股票市场上市公司高管的简历。随机选择了1027份简历摘要，并使用YEDDA系统手动标注了8种命名实体[国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)]。该本数据集包括训练集（3821）、验证集（463）、测试集（477），实体类型包括，文本比较规范，实体识别模型效果通常F1 90%以上。

微博-NER

该数据集是一个为NER标注的微博信息语料库。相较于MSRA-NER该数据更加的具体，其主要包括：人名（具体名字和泛指名字）、地址（具体地址和泛指地址）、行政区、组织机构（特定机构和泛指名称）。该语料库主要基于2013年11月至2014年12月期间从微博上采样的1890条信息标注完成（训练数据集1350条，开发数据集270条，测试数据集270条），在数量方面相较于MSRA-NER偏少。目前Github最近一次更新时间是在2018年。

人民日报(1998/2014)-NER

该数据集同样是一个为NER标注数据集，本NER数据集由人民日报语料库1998版和2014版生成，包含了人名(PER)、地名(LOC)和机构名(ORG)3类常见的实体类型。对于命名实体资料其主要包括：人名、地名和机构名。其中1998版本语料库训练数据集2W+条，开发数据集2.3k+条，测试数据集4.6k+条。目前该数据集Github最近一次更新时间是在2018年。另外关于该数据集的论文出处没有找到，有知道的小伙伴可以私信给我。

MSRA-NER

该数据集是Microsoft Research Asia (MSRA)推出的关于中文命名实体识别的数据集，其中主要包括：地名、机构名和人名，采用的标签策略是BIO。其中训练数据集含有4.5万个句子，3.6万多个地名，2万多个机构名，1.7万多个人名；测试数据集大概是训练数据集的十分之一，其中含有3.4k+个句子，2.8k+地名，1.3k+组织名，1.9k+人名。目前Github最近一次更新是在2018年。

Boson-NER

Boson提供的命名实体识别数据，采用UTF-8进行编码，每行为一个段落标注，共包括2000段落。数据集共包含2000个段落，实体类型有六种，主要包括：时间、地点、人名、组织名、公司名、产品名。该数据集查了出处网上都指向地址：https://bosonnlp.com/，但该网站好像已经访问不到了好在网上数据集还能找到。

CLUENER 细粒度-NER

本数据是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注得到。其中训练集共计10748条，验证集共计1343条。，数据分为10个标签类别，分别为: 地址（address），书名（book），公司（company），游戏（game），政府（government），电影（movie），姓名（name），组织机构（organization），职位（position），景点（scene），其中训练集共计10748条，验证集共计1343条。

电子病历-NER

该数据集是由全国知识图谱与语义计算大会(CCKS)公布的，它们在2017年到2020年举办了四次关于电子病历命名实体识别（简称CNER Clinical Named Entity Recognition）的竞赛，即对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学临床相关的实体，并将它们归类到预先定义好的类别（pre-defined categories），比如症状，药品，手术等。其中主要包括CCKS2017-NER、CCKS2018-NER、CCKS2019-NER、CCKS2020-NER。具体CCKS2017-NER数据集，共2229条样本，5种类别，为symp、dise、chec、body和cure；CCKS2018-NER数据集，共797条样本，5种类别，为症状和体征、检查和检验、治疗、疾病和诊断、身体部位；CCKS2019-NER数据集，共1379条样本，6种类别，为解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查；CCKS2020-NER，共计1887条样本，

军事装备试验鉴定-NER

该数据集源于军事科学院系统工程研究院在CCKS 2020中组织关于军事装备试验鉴定的命名实体识别评测，其中训练集和测试集分别为400条，平均长度150，最大长度358。实体类型主要包括四大类：试验要素(如：RS-24弹道导弹、SPY-1D相控阵雷达)、性能指标(如测量精度、圆概率偏差、失效距离)、系统组成(如中波红外导引头、助推器、整流罩)、任务场景(如法国海军、导弹预警、恐怖袭击)。

中文医学CMeEE-NER

CMeEE数据集出自，中文医疗信息处理挑战榜CBLUE。数据集将医学文本命名实体划分为九大类，包括：疾病(dis)，临床表现(sym)，药物(dru)，医疗设备(equ)，医疗程序(pro)，身体(bod)，医学检验项目(ite)，微生物类(mic)，科室(dep)。标注之前对文章进行自动分词处理，所有的医学实体均已正确切分，另外CMeEE-V2是对CMeEE的补充。

中国文学-NER

该数据集基于中国文学文章进行标注制作，共计包含726篇文章。一共定义了7个实体：物件、任务、地址、事件、计量单位、组织、出处等。

银行借贷2021-NER

该数据集共10000条样本，4种类别，为BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT。

任务对话2018-NER

该数据集是NLPCC2018发布的比赛任务公布出来的，主要对应任务式对话任务4，该数据集共21352条样本，15种类别，为language、origin、theme、custom_destination、style、phone_num、destination、contact_name、age、singer、song、instrument、toplist、scene和emotion。

CCIR2021-NER

全国信息检索学术会议（CCIR)由中国中文信息学会和中国计算机学会联合举办，则全国信息检索挑战杯（CCIR Cup）是由全国信息检索学术会议（CCIR）发起的技术评测比赛。数据集CCIR2021是该比赛发布的，旨在提高算法在中文命名实体识别方面鲁棒性，该数据数据集共15723条样本，4种类别，分别为LOC、GPE、ORG和PER。

瑞金MCC2018-NER

该数据集是由上海瑞金医院与阿里云联合发起主办AI大赛上发布的，其主要任务是通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。该数据集共计3498条样本，18种类别，为Level、Method、Disease、Drug、Frequency、Amount、Operation、Pathogenesis、Test_items、Anatomy、Symptom、Duration、Treatment、Test_Value、ADE、Class、Test和Reason。

中医药应用2020-NER

该数据集主要是在2020年智慧中医药应用创新挑战赛中发布，该比赛主要由阿里和万科主办，旨在选出优秀的中医药人工智能大数据领域的应用创新解决方案。该数据集共1255条样本，13种类别，为药物剂型、疾病分组、人群、药品分组、中药功效、症状、疾病、药物成分、药物性味、食物分组、食物、证候和药品。

商品标题2022-NER

GAIIC2022数据集主要出自2022全球人工智能技术创新大赛。主要背景是：京东商品标题包含了商品的大量关键信息，商品标题实体识别是NLP应用中的一项核心基础任务，能为多种下游场景所复用，从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。共有标注训练样本：4万条左右；无标注样本：100万条。实体共有52种类型，均已经过脱敏处理，用数字代号1至54表示（不包含27和45）；其中“O”为非实体。标签中“B”代表一个实体的开始，“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。

诊疗对话2021-NER

在线问诊平台逐渐兴起，在线问诊是指医生通过对话和患者进行病情的交流、疾病的诊断并且提供相关的医疗建议，医患对话理解旨在对问诊文本信息进行信息抽取，主要包括两个任务，分别是命名实体识别和症状检查识别。目前是从医患对话文本中识别出五类重要的医疗相关实体（Operation、Drug_Category、Medical_Examination、Symptom和Drug），数据包含2000多组对话，共98452条样本。

FNED数据集合-NER

FNED数据集包含8种事件类型，共计1.3万个具有事件信息的句子（每个句子中包含一个事件），数据来源于公开军事新闻网站（如新浪军事、凤凰军事和网易军事等），标注信息包含事件提及（触发词、事件类型和事件元素）、实体提及（实体）和关系提及（头实体、尾实体和关系类型），其中8种事件类型，7种实体类型，8种关系类型。