Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition

在这里插入图片描述

Span Proposal Filter(跨度提议过滤器)的例子
假设我们有一个句子:“The company Apple announced the acquisition of U.K. startup for 1billion.”从这个句子中,我们可能生成了多个种子跨度,包括“ThecompanyApple”,“Apple”,“U.K.startup”,“for1 billion”等。

Span Proposal Filter的作用:过滤器会评估这些跨度的质量,并决定哪些跨度是高质量的(即“跨度提议”),哪些是低质量的(即“上下文跨度”)。在这个例子中,过滤器可能会认为“Apple”和“U.K. startup”是高质量的跨度提议,因为它们与句子中的实际实体高度匹配。而“The company Apple”和“for 1billion”可能被认为是低质量的上下文跨度,因为它们要么包含了不必要的上下文信息(如“Thecompany”),要么并不直接对应一个可识别的实体(如“for1 billion”)。
Boundary Regressor(边界回归器)的例子
在确定了高质量的跨度提议之后,Boundary Regressor会进一步调整这些跨度的边界。

Boundary Regressor的作用:假设“Apple”被识别为一个高质量的跨度提议,但它可能并没有完全精确地定位到句子中的“Apple”实体(这种情况在实际中不太常见,因为“Apple”通常是一个明确的实体,但为了说明边界回归器的功能,我们假设存在这种情况)。边界回归器会学习如何调整这个跨度的边界,以便更准确地覆盖实体。然而,在这个特定的例子中,由于“Apple”已经是一个精确的实体,边界回归器可能只会确认其边界不需要调整。
另一个例子:考虑一个更复杂的实体,如“U.K. startup”。如果生成的跨度提议是“U.K. star”,那么边界回归器的任务就是调整这个跨度的右边界,以包含完整的“startup”部分,从而得到更准确的实体“U.K. startup”。
综合例子
原始句子:“The company Apple announced the acquisition of U.K. startup for $1 billion.”
生成的种子跨度:“The company Apple”, “Apple”, “U.K. star”, “U.K. startup”, “for $1 billion”
Span Proposal Filter的输出:保留“Apple”和“U.K. startup”作为高质量的跨度提议,过滤掉其他跨度。
Boundary Regressor的调整:对于“Apple”,边界可能不需要调整;对于“U.K. startup”,如果原始跨度提议是“U.K. star”,则边界回归器会将其右边界扩展到“startup”,以形成完整的实体。
通过这些例子,我们可以看到Span Proposal模块如何协同工作,以提高命名实体识别的准确性和效率。

这段话描述了一个在自然语言处理(NLP)中,特别是命名实体识别(Named Entity Recognition, NER)任务中,使用种子跨度(seed spans)来提取实体的方法。关键点、IoU(Intersection over Union)的计算、正样本和负样本的定义,以及一个具体的例子如下:

关键点
种子跨度(Seed Spans):从句子中的单词序列中采样得到的子序列。
过滤和分类:通过对种子跨度进行过滤、调整边界和分类,从句子中提取实体。
长度约束:在生成种子跨度时,有一个预定义的最大长度L。
IoU(交并比):用于衡量两个跨度之间的重叠程度。
正负样本:基于IoU值将种子跨度分为正样本和负样本。
类别和回归目标:正样本被赋予与配对的真实实体相同的类别,并计算边界偏移;负样本仅被赋予"NONE"标签。
IoU是什么?
IoU(Intersection over Union)是计算机视觉和NLP中常用的一个概念,用于衡量两个区域或跨度之间的重叠程度。它定义为两个区域交集的面积(或长度)与它们并集的面积(或长度)之比。

IoU怎么计算的?
对于两个跨度A和B,IoU的计算公式为:

IoU(A,B)=
∣A∪B∣
∣A∩B∣

其中,∣A∩B∣ 表示A和B的交集的长度(或面积),∣A∪B∣ 表示A和B的并集的长度(或面积)。

正样本是什么?
正样本是指那些与某个真实实体(ground-truth entity)的IoU值超过某个阈值(如α1)的种子跨度。这些种子跨度被认为是与真实实体高度相关的,因此被赋予与真实实体相同的类别,并计算它们之间的边界偏移。

负样本是什么?
负样本是指那些与任何真实实体的IoU值都低于阈值(如α1)的种子跨度。这些跨度被认为与真实实体关系不大,因此仅被赋予"NONE"标签。

举个例子
假设句子是 “Apple is looking at buying U.K. startup for $1 billion”,真实实体是 “Apple”(组织)和 “U.K. startup”(组织)。

种子跨度之一可能是 “Apple is”,它与真实实体 “Apple” 的IoU为
3
1

(交集长度1,并集长度3),如果α1是0.5,则这个跨度是负样本。
另一个种子跨度 “Apple” 与真实实体 “Apple” 的IoU为1(完全重叠),因此它是正样本,并被赋予与组织相同的类别。
种子跨度 “U.K. startup” 与真实实体 “U.K. startup” 的IoU也为1,因此它也是正样本。
在这个例子中,为了训练模型,我们可能需要更多的正样本和负样本,并通过下采样来平衡它们的比例(如1:5)。

当然,我们可以根据Span Proposal模块中的两个主要组件——Span Proposal Filter(跨度提议过滤器)和Boundary Regressor(边界回归器)——来举一些具体的例子,以便更好地理解它们是如何工作的。

Span Proposal Filter(跨度提议过滤器)的例子
假设我们有一个句子:“The company Apple announced the acquisition of U.K. startup for 1billion.”从这个句子中,我们可能生成了多个种子跨度,包括“ThecompanyApple”,“Apple”,“U.K.startup”,“for1 billion”等。

Span Proposal Filter的作用:过滤器会评估这些跨度的质量,并决定哪些跨度是高质量的(即“跨度提议”),哪些是低质量的(即“上下文跨度”)。在这个例子中,过滤器可能会认为“Apple”和“U.K. startup”是高质量的跨度提议,因为它们与句子中的实际实体高度匹配。而“The company Apple”和“for 1billion”可能被认为是低质量的上下文跨度,因为它们要么包含了不必要的上下文信息(如“Thecompany”),要么并不直接对应一个可识别的实体(如“for1 billion”)。
Boundary Regressor(边界回归器)的例子
在确定了高质量的跨度提议之后,Boundary Regressor会进一步调整这些跨度的边界。

Boundary Regressor的作用:假设“Apple”被识别为一个高质量的跨度提议,但它可能并没有完全精确地定位到句子中的“Apple”实体(这种情况在实际中不太常见,因为“Apple”通常是一个明确的实体,但为了说明边界回归器的功能,我们假设存在这种情况)。边界回归器会学习如何调整这个跨度的边界,以便更准确地覆盖实体。然而,在这个特定的例子中,由于“Apple”已经是一个精确的实体,边界回归器可能只会确认其边界不需要调整。
另一个例子:考虑一个更复杂的实体,如“U.K. startup”。如果生成的跨度提议是“U.K. star”,那么边界回归器的任务就是调整这个跨度的右边界,以包含完整的“startup”部分,从而得到更准确的实体“U.K. startup”。
综合例子
原始句子:“The company Apple announced the acquisition of U.K. startup for $1 billion.”
生成的种子跨度:“The company Apple”, “Apple”, “U.K. star”, “U.K. startup”, “for $1 billion”
Span Proposal Filter的输出:保留“Apple”和“U.K. startup”作为高质量的跨度提议,过滤掉其他跨度。
Boundary Regressor的调整:对于“Apple”,边界可能不需要调整;对于“U.K. startup”,如果原始跨度提议是“U.K. star”,则边界回归器会将其右边界扩展到“startup”,以形成完整的实体。
通过这些例子,我们可以看到Span Proposal模块如何协同工作,以提高命名实体识别的准确性和效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值