《自然语言处理综论(Speech and Language Processing)》第八章笔记

8 Sequence Labeling for Parts of Speech and Named Entities(词类和命名实体的序列标签)

本章重点介绍了词类(POS, parts of speech)和命名实体(NE, named entity),以及词类任务和命名实体识别任务。词类标注任务是指,获取单词序列并为每个单词分配词类(如名词NOUN或动词VERB)。命名实体识别(NER)任务是指,为词或短语指定标签,例如PERSON(人名),LOCATION(地名)或ORGANIZATION(组织名)。此外,本章介绍了序列标签(sequence labeling)任务,即为输入单词序列中的每个单词分配标签y,以使输出序列Y与输入序列X具有相同长度。经典的序列标记算法包括生成式-隐马尔可夫模型(HMM)和区分式-条件随机场(CRF)。
词类被分为封闭类(closed class)和开放类(open class)两种,封闭类是成员关系相对固定的类(虚词/介词),开放类(名词、动词、形容词、副词)中,新词不断被创建。

词类标记(part-of-speech tagging)是为文本中的每个单词分配词类,输入时(编码后的)单词和标签集的序列,输出是标签的序列,每个输出y_i对应一个输入x_i。POS标记的目标是消解歧义(disambiguation),为上下文选择适当的标记。词类标记的baseline是给定一个有歧义的单词,选择在训练语料库中最频繁的标记。

命名实体是可以用专有名称引用的任何东西,命名实体识别任务是查找构成专有名称的文本范围并标记实体的类型,常见实体标签包括人员PER、位置LOC、组织ORG或地缘政治实体GPE。命名实体标记是许多自然语言理解任务中的第一部。相比于词类标注,命名实体识别需要查找并标记文本的片段(span),产生了分段(segmentation),确认边界和消除指代歧义是关键问题。BIO标记可以将命名实体识别转化成类似的词类标记问题。用标签B标记任何处于一个片段开始(Begin)的字符,用标签I表示处于内部(Inside)的字符,标签O表示处于片段外部(Outside)。比如,B-PER表示人名的开始等。可以训练序列标签器(HMM、CRF、RNN、Transformer等)为文本中的字符打标签,标签表示特定类型的命名实体。

序列建模的两种常见方法是生成方法(HMM标记)和判别方法(CRF标记)。HMM标记器中的概率估计就是在贴标的训练语料库上的最大似然估计。Viterbi算法用于解码,以找到最可能的标签序列。HMM是一种概率序列模型:给定一个单元序列(单词、字母、语素、句子,等等),它计算可能的标签序列的概率分布,并选择最佳的标签序列。隐马尔可夫模型(hidden Markov model,.HMM)允许我们讨论观察到的事件(例如我们在输入中看到的单词)和隐藏事件(例如词类标记),我们将它们视为概率模型中的因果关系。确定与观察序列相对应的隐藏变量序列的任务称为解码(decoding)。HMM的解码算法是维特比(Viterbi)算法,类似动态编程最小编辑距离算法。Viterbi首先简历概率矩阵或格子,在状态图中每个观察用一列表示,每个状态用一行表示,在单个组合自动机中,每列都有一个用于每个状态的单元格。在给定的条件下,在看到前t次观察并经过最可能的状态序列 q 1 , , q t 1 q_1,,q_{t1} q1,,qt1后,HMM处于状态j的概率。每个单元格的值是通过递归地采用最可能导致我们到达此单元的路径来计算的。

条件随机场或CRF标记器训练对数线性模型,该模型可以根据对输出标记、先验输出标记、整个输入序列和当前时间步的条件,在给定观察序列的情况下,选择最佳标记序列。它们使用Viterbi算法进行推理,选择最佳标记序列,并使用前向后向算法进行训练。CRF是对数线性模型,它在给定整个输入(单词)序列X的情况下,为所有可能的整个输出(标记)序列Y分配概率。我们可以把CRF看作是多项逻辑回归对单个符记所做的工作的一个巨大版本。

词类标记器通过标准的准确性度量进行评估。命名实体识别器通过召回率、精度和F1度量进行评估。召回率是正确标记的响应数与应该标记的总数之比:精度是正确标记的响应数与标记的总数之比:F度量是两者的调和均值。

参考

Speech and Language Processing 电子版
8 Sequence Labeling for Parts of Speech and Named Entities
自然语言处理综述 中文版

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值