Locate and Label: A Two-stage Identiﬁer for Nested Named Entity Recognition-CSDN博客

本文链接：https://blog.csdn.net/weixin_45958231/article/details/140444912

在这里插入图片描述

Span Proposal Filter（跨度提议过滤器）的例子
假设我们有一个句子：“The company Apple announced the acquisition of U.K. startup for 1billion.”从这个句子中，我们可能生成了多个种子跨度，包括“ThecompanyApple”,“Apple”,“U.K.startup”,“for1 billion”等。

Span Proposal Filter的作用：过滤器会评估这些跨度的质量，并决定哪些跨度是高质量的（即“跨度提议”），哪些是低质量的（即“上下文跨度”）。在这个例子中，过滤器可能会认为“Apple”和“U.K. startup”是高质量的跨度提议，因为它们与句子中的实际实体高度匹配。而“The company Apple”和“for 1billion”可能被认为是低质量的上下文跨度，因为它们要么包含了不必要的上下文信息（如“Thecompany”），要么并不直接对应一个可识别的实体（如“for1 billion”）。
Boundary Regressor（边界回归器）的例子
在确定了高质量的跨度提议之后，Boundary Regressor会进一步调整这些跨度的边界。

Boundary Regressor的作用：假设“Apple”被识别为一个高质量的跨度提议，但它可能并没有完全精确地定位到句子中的“Apple”实体（这种情况在实际中不太常见，因为“Apple”通常是一个明确的实体，但为了说明边界回归器的功能，我们假设存在这种情况）。边界回归器会学习如何调整这个跨度的边界，以便更准确地覆盖实体。然而，在这个特定的例子中，由于“Apple”已经是一个精确的实体，边界回归器可能只会确认其边界不需要调整。
另一个例子：考虑一个更复杂的实体，如“U.K. startup”。如果生成的跨度提议是“U.K. star”，那么边界回归器的任务就是调整这个跨度的右边界，以包含完整的“startup”部分，从而得到更准确的实体“U.K. startup”。
综合例子
原始句子：“The company Apple announced the acquisition of U.K. startup for $1 billion.”
生成的种子跨度：“The company Apple”, “Apple”, “U.K. star”, “U.K. startup”, “for $1 billion”
Span Proposal Filter的输出：保留“Apple”和“U.K. startup”作为高质量的跨度提议，过滤掉其他跨度。
Boundary Regressor的调整：对于“Apple”，边界可能不需要调整；对于“U.K. startup”，如果原始跨度提议是“U.K. star”，则边界回归器会将其右边界扩展到“startup”，以形成完整的实体。
通过这些例子，我们可以看到Span Proposal模块如何协同工作，以提高命名实体识别的准确性和效率。

这段话描述了一个在自然语言处理（NLP）中，特别是命名实体识别（Named Entity Recognition, NER）任务中，使用种子跨度（seed spans）来提取实体的方法。关键点、IoU（Intersection over Union）的计算、正样本和负样本的定义，以及一个具体的例子如下：

关键点
种子跨度（Seed Spans）：从句子中的单词序列中采样得到的子序列。
过滤和分类：通过对种子跨度进行过滤、调整边界和分类，从句子中提取实体。
长度约束：在生成种子跨度时，有一个预定义的最大长度L。
IoU（交并比）：用于衡量两个跨度之间的重叠程度。
正负样本：基于IoU值将种子跨度分为正样本和负样本。
类别和回归目标：正样本被赋予与配对的真实实体相同的类别，并计算边界偏移；负样本仅被赋予"NONE"标签。
IoU是什么？
IoU（Intersection over Union）是计算机视觉和NLP中常用的一个概念，用于衡量两个区域或跨度之间的重叠程度。它定义为两个区域交集的面积（或长度）与它们并集的面积（或长度）之比。

IoU怎么计算的？
对于两个跨度A和B，IoU的计算公式为：

IoU(A,B)=
∣A∪B∣
∣A∩B∣

其中，∣A∩B∣ 表示A和B的交集的长度（或面积），∣A∪B∣ 表示A和B的并集的长度（或面积）。

正样本是什么？
正样本是指那些与某个真实实体（ground-truth entity）的IoU值超过某个阈值（如α1）的种子跨度。这些种子跨度被认为是与真实实体高度相关的，因此被赋予与真实实体相同的类别，并计算它们之间的边界偏移。

负样本是什么？
负样本是指那些与任何真实实体的IoU值都低于阈值（如α1）的种子跨度。这些跨度被认为与真实实体关系不大，因此仅被赋予"NONE"标签。

举个例子
假设句子是 “Apple is looking at buying U.K. startup for $1 billion”，真实实体是 “Apple”（组织）和 “U.K. startup”（组织）。

种子跨度之一可能是 “Apple is”，它与真实实体 “Apple” 的IoU为
3
1

（交集长度1，并集长度3），如果α1是0.5，则这个跨度是负样本。
另一个种子跨度 “Apple” 与真实实体 “Apple” 的IoU为1（完全重叠），因此它是正样本，并被赋予与组织相同的类别。
种子跨度 “U.K. startup” 与真实实体 “U.K. startup” 的IoU也为1，因此它也是正样本。
在这个例子中，为了训练模型，我们可能需要更多的正样本和负样本，并通过下采样来平衡它们的比例（如1:5）。

当然，我们可以根据Span Proposal模块中的两个主要组件——Span Proposal Filter（跨度提议过滤器）和Boundary Regressor（边界回归器）——来举一些具体的例子，以便更好地理解它们是如何工作的。