接上一篇
P20-P21
命名实体识别
•命名实体中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等,其中最典型的是人名,地名,机构名。
•由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从分词任务中独立出来,称为命名实体识别。
•目前命名实体识别准确率已经成为评价一个分词系统优劣的重要标志之一。
命名实体识别
u命名实体是指“不可穷举”的实体名词。
u传统任务就是识别出待处理文本中三大类、七小类命名实体
方法
ü
有监督的学习方法
•
HMM/ CRF /
最大熵
/
支持
向量机
/
决策树
ü
半监督的学习方法
•
利用标注的小数据集
(
种子数据
)
自举学习
ü
无监督的学习方法
•
利用词汇资源上下文聚类
未完,待续……