序列标注
序列标注(Sequense Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注、命名实体识别、关键词提取、语义角色标注、槽位抽取(Slot Filling)等实质上都属于序列标注范围。
命名实体识别
命名实体识别(Named Entity Recognition,简称NER),是指识别文中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
命名实体识别的作用
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中的三大类命名实体(实体列、时间类、数字类)、七小类(人名、机构名、地名、时间、日期、货币、和百分比)。
命名实体识别的过程组成
1.实体边界识别;
2.确定实体类别(人名、地名、机构名或其他)
简述标签类型
进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词、空格分割。标注标签类型如下表所示
类型:说明
B:Begin,代表实体片段的开始
I :Internediate,代表实体片段的中间
M:Middle,代表实体片段的中间
E:End,代表实体片段的结束
S:Single,代表实体片段的单个字
O:Other,代表字符不为任何实体
实体识别常见的序列标注方法:
1.BIO:标识实体的开始、中间和非实体部分
2.BMES:增加S单个实体情况的标注
3.BIOSE:增加E实体的结束标识
BIO-三位序列标注法(B-begin,I-inside,O-outside)
·B-X 代表实体X的开头
·I-X 代表实体X的中间或结尾
·O代表不属于任何类型的实体
样例
我 O
是 O
李 B-PER
果 I-PER
冻 I-PER
, O
我 O
爱 O
中 B-ORG
国 I-ORG
, O
我 O
来 O
自 O
四 B-LOC
川 I-LOC
。 O
BMES-四位序列标注法(B-begin,M-middle,E-end,S-single)
·B 表示一个词的词首位置
·M 表示一个词的中间位置
·E 表示一个词的末尾位置
·S 表示一个单独的字词
样例
我 S
是 S
四 B
川 M
人 E
BIOES-五位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)
·B 表示开始
·I 表示内部
·O 表示非实体
·E 表示实体尾部
·S 表示该词本身就是一个实体
样例
我 O
是 O
李 B-PER
果 I-PER
冻 E-PER
, O
我 O
爱 O
中 B-LOC
国 E-LOC
, O
我 O
来 O
自 O
四 B-LOC
川 E-LOC
。 O
总结
从上面可以看出序列标注的各种方法 大同小异。
参考链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421