一、命名实体识别含义
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体。一般包括3大类(实体类、时间类、数字类)和7小类(人名、地名、机构名、专有名词、时间、日期、货币和百分比)。命名实体识别是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。
二、测量指标:
1、召回率 = 正确识别的实体/总的识别数量×100%
2、准确率 = 正确识别的实体/总的实体×100%
3、F-测度值 = 2×召回率×准确率/(召回率+准确率)
- 例如,有一个长度为100的文本,其中有50个实体。模型预测出75个实体,但实际只有45个是正确实体。则:
召回率R = 45/50=90%
准确率P = 45/75=60%
三、标注方法:
1、标签列表如下:
- B,即Begin,表示开始
- I,即Intermediate,表示中间
- E,即End,表示结尾
- S,即Single,表示单个字符
- O,即Other,表示其他,用于标记无关字符
2、常用标注方法:
- BIO标注模式
(B-begin,I-inside,O-outside) - BIOES标注模式
(B-begin,I-inside,O-outside,E-end,S-single)
四、方法:
1、传统基于规则和词典的方法:
采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。对每一个规则都赋予权值。当遇到规则冲突的时候, 选择权值最高的规则来判别命名实体的类。
2、基于统计的方法: