十九、命名实体识别（Named Entity Recognition/NER）_命名实体识别(named entity recognition,ner) s-cardinal-CSDN博客

到目前位置，我们主要关注一项NLP任务-分类。然而，还有其他NLP任务可以采用神经网络完成。命名实体识别（Named Entity Recognition）就是其中之一，它处理识别文本中指定的实体，比如地点、人名、日期时间间隔、化学式等。

课前练习

使用NER的示例

假设您想开发一个自然语言聊天机器人，类似于Amazon Alexa或者谷歌助手。智能聊天机器人的工作原理是通过对输入的语句进行文本分类以理解用户想要什么。分类的结果称作意图（intent），它决定了聊天机器人应该做什么。

图像有作者提供

但用户可能会在短语中提供一些参数作为输入。例如，当询问天气，用户可能指定位置或者日期。机器人要有能力理解这些实体，并在执行操作之前填入相应的参数。这就是NER发挥作用的地方。

✅ 另一个例子是分析科学医学论文。我们需要查找的主要内容之一是特定的医学术语，比如说疾病和医疗物质。虽然使用子字符搜索可以提取小部分疾病，数复杂的实体，比如说化合物名称和药物名称，需要使用更复杂的方法。

使用NER进行词元（Token）分类

NER模型本质上是一种词元（token）分类模型，因为对于每个输入词元（token），我们需要决定它是否属于某个实体，如果属于，那属于哪个实体类别。

考虑如下沦为标题：

新生儿婴儿三尖瓣关闭不全和碳酸锂中毒。（Tricuspid valve regurgitation and lithium carbonate toxicity in a newborn infant）

这里的实体是：

三尖瓣关闭不全是一种疾病（Tricuspid valve regurgitation is a disease） (DIS)
碳酸锂是一种化学物质（Lithium carbonate is a chemical substance） (CHEM)
中毒也是一种疾病（Toxicity is also a disease） (DIS)

注意一个实体可以跨越多个词元（token）。而且正如这个例子，我们需要区分连续的两个实体。因此，每个实体通常使用两个类别-一个确定第一个token的实体（通常使用B-作为签注，表示开头），另一个表示实体的延续（I-，表示内部词元）。我们也使用O作为一个类别，表示所有其他token。这种token标记称作BIO 标记（或者IOB）。标记后，我们的标题将如下所示：Notice that one entity can span several tokens. And, as in this case, we need to distinguish between two consecutive entities. Thus, it is common to use two classes for each entity - one specifying the first token of the entity (often the B- prefix is used, for beginning), and another - the continuation of an entity (I-, for inner token). We also use O as a class to represent all other tokens. Such token tagging is called BIO tagging (or IOB). When tagged, our title will look like this: