论文链接:Joint Mention Extraction and Classification with Mention Hypergraphs
Abstract
我们为Mention的抽取分类联合任务提出了一种新颖模型。与现有的方法不同,我们的模型能够有效捕捉长度不限的重叠Mentions。该模型具有高度可扩展性,其时间复杂度与输入句子中的单词数量和可能的Mention类别呈线性关系。我们的模型可以扩展到在相同的时间复杂度下,以联合的方式显式地额外捕获Mention的头部信息。在标准数据集上的大量实验证明了模型的有效性。
1 Introduction
自然语言处理(NLP)的基本目标之一是开发有效的系统,以捕获人类语言所传递的潜在语义。实现这一目标的一个重要步骤是开发实用的系统,该系统能够高效地提取有用的浅层语义信息(如实体),同时识别它们的语义类(如人、组织等)。
这样的任务通常被称为命名实体识别和分类(NERC),是信息抽取(IE)的标准任务之一。这类任务主要是对文本中的命名实体进行提取和分类,最近,研究者也对一种密切相关的任务——Mention的抽取和分类产生了兴趣。与命名实体不同,Mention通常被定义为自然语言文本中对实体的引用,该实体可以是命名的、名义的或代词的(Florian et al., 2004)。Mention检测和跟踪的任务受到了大量的关注,这在很大程度上是因为它在执行几个下游任务中发挥了重要作用,如关系抽取(Mintz et al., 2009)、实体链接(Guo et al., 2013)和指代消解(Chang et al., 2013)。
虽然现有的大多数关于命名实体识别和Mention的抽取和分类工作都是有效的,但与现有模型相关的几个关键限制仍然存在。事实上,我们可以将这些问题看作更普遍的语义标记问题,即为给定输入句子的特定文本跨度(Text Span)分配适当的语义标记。与过去几十年被广泛研究的词性(POS)标记不同,语义标记任务提出了几个新的挑战。首先,一个Mention可以包含多个单词,所以它的长度可以是任意的。第二,Mentions可以相互重叠。常用的POS标注模型,如线性链条件随机场(Lafferty et al., 2001)或半马尔可夫条件随机场(Sarawag and Cohen, 2004)都难以处理这些问题。虽然存在解决这些问题的方法,但目前的算法通常存在时间复杂度高的问题(Finkel and Manning, 2009),因此难以扩展到大型数据集。另一方面,为自然语言文本的Mention抽取和分类任务设计一个高效的、可扩展的模型在当前这个每天都有大量文本数据出现在Web上的时代越来越重要。用户需要能够扩展到非常大数据集的系统,以支持有效的语义分析,以便及时作出决策。
本文通过引入一种为Mention的抽取分类联合任务所设计的模型来解决上述问题。在这项工作中,我们作出了以下主要贡献:
1.我们提出了一个能够有效处理任意长度重叠Mentions的模型;
2.我们提出的模型的学习和推理算法的时间复杂度与输入句子中的单词数量和可能的语义类型的数量是线性的,这使得我们的模型可以扩展到非常大的数据集;
3.我们的模型可以在相同的时间复杂度下,以联合的方式额外捕获Mentions的头部信息。
模型和代码可以从StatNLP下载。
2 Related Work
现有的工作主要集中在命名实体识别和分类(NERC)任务。(Nadeau and Sekine, 2007)对这一主题进行了全面的研究。
大多数之前的工作采用监督学习方法。Zhou和Su(2002)提出了一个基于隐马尔科夫模型来识别命名实体的系统。Florian等人(2003)提出了一个通过组合不同的分类器来识别命名实体的系统。McDonald和Pereira(2005)使用条件随机场从生物医学文本中提取基因和蛋白质Mentions。Ratinov和Roth(2009)对与命名实体识别和分类系统设计相关的几个问题进行了系统分析,其中讨论了块表示和推理算法的选择等问题。研究人员还研究了这种任务的半监督和无监督方法(Cucchiarelli and Velardi, 2001; Etzioni et al., 2005)。也有关于在多语言或跨语言设置下解决NERC问题的研究(Florian et al., 2004; Che et al., 2013; Wang et al., 2013)。
正如Finkel和Manning(2009)所指出的,命名实体通常是嵌套的。由于技术原因,这一事实经常被忽视。因此,他们建议使用时间复杂度为
O
(
n
3
)
O(n^{3})
O(n3)(
n
n
n是输入句子中的单词数)的成分句法分析(Constituency Parser)来处理嵌套实体问题,并在多个数据集上展示了其有效性。Alex等人(2007)也提出了几种方法,通过在线性链条件随机场的基础上建立模型来识别生物医学文本中的嵌套实体。Hoffmann等人(2011)研究了一个单独的问题,即识别实体之间的重叠关系。
命名实体识别和分类仍然是统计自然语言处理领域的一个热门话题。Ritter等人(2011)研究了从社交媒体数据中识别实体,这些数据包括非正式的和潜在的嘈杂文本。Pasupat和Liang(2014)研究了使用最少监督的自然语言查询的网页中的零样本实体抽取问题。Neelakantan和Collins(2014)研究了在最少监督的情况下自动构建字典的问题,以改进命名实体提取。Li和Ji(2014)提出了一种以联合增量方式完成Mention及其关系提取任务的方法。
3 Approach
3.1 Mentions and Their Combinations
通常,出现在自然语言句子中的Mention由自然语言单词的连续序列组成。考虑一个由
n
n
n个单词组成的句子,其中每个单词都根据其在句子中的位置被索引。一个Mention
m
m
m 可以唯一地用一个元组
<
b
m
,
e
m
,
τ
>
<b_{m}, e_{m}, \tau>
<bm,em,τ>表示,其中
b
m
b_{m}
bm和
e
m
e_{m}
em分别是Mention的第一个和最后一个单词的索引,
τ
\tau
τ是它的语义类(类型)。
我们可以看到,对于一个由
n
n
n个单词组成的句子,总共有
t
n
(
n
+
1
)
/
2
tn(n + 1)/2
tn(n+1)/2个可能的不同Mention候选,其中
t
t
t是可能的Mention类型的总数。现在,对于给定句子中的每一个这样的候选,它可以是Mention,也可以不是Mention。这将导致总数量为
2
t
n
(
n
+
1
)
/
2
2^{tn(n+1)/2}
2tn(n+1)/2个可能的Mention组合。这个数甚至对于n和t的小值来说都是非常大的,这使得我们在学习和推理过程中无法详尽地列举所有的值。
在如此大的空间上执行推理的一种方法是引入紧凑的表示,这种表示能够以指数方式对许多Mentions进行编码,从而能够使用易于处理的推理算法。在下一节中,我们将讨论为此目的而提出的超图表示(Mention Hypergraph Representation)。
3.2 Mention Hypergraphs
我们方法的核心是引入了新颖的Mention Hypergraphs,它使我们能够以指数方式紧凑地表示不同类型的潜在重叠、长度无界Mentions的多种可能组合。
超图是普通图的一种泛化,它的边(也称为超边)可以连接两个或多个节点。在本文中,我们考虑了一类特殊的超图,其中每个超边由一个指定的父节点和一个有序的子节点列表组成。超图也被用于其他领域,如句法分析(Klein and Manning, 2001)、语义分析(Lu, 2015)和机器翻译(Cmejrek et al., 2013)。
我们的Mention Hypergraphs由五种节点组成,即 A A A节点、 E E E节点、 T T T节点、 I I I节点和 X X X节点,它们被用来紧凑地表示许多不同语义类型和边界的Mentions。图1描述了部分Mention Hypergraphs。接下来,我们将描述每种节点类型的定义。
- A A A节点。(After)这些节点用于顺序排列具有不同左边界的Mentions。具体来说,在位置 k k k(第 k k k个词)的每一个 A A A节点,即 A k A^k Ak,被用来紧凑地表示句子中左边界恰好在或严格在 k k k之后的Mentions;
- E E E节点。(Exactly)节点 E k E^k Ek被用来紧凑地表示所有可能的Mentions(长度可能为0),其左边界恰好位于当前位置 k k k。
- T T T节点。(Type)节点 T j k T^k_j Tjk被用来紧凑地表示所有Mentions(长度可能为0),其左边界恰好位于当前位置 k k k,且具有Mention类型 j j j。
- I I I节点。(Incomplete)节点 I j k I^k_j Ijk被用来紧凑地表示所有的不完整Mentions,它包含位置 k k k的当前单词并作为Mention的一部分,且具有Mention类型 j j j。
- X X X节点。这些是指示路径完成的终端节点。不会有额外的节点作为子节点附加到这些节点上。
在Mention Hypergraph中,还有各种连接不同节点的超边。我们使用
<
α
←
β
1
,
.
.
.
,
β
n
>
<α \gets β_1, ..., β_n>
<α←β1,...,βn>来表示连接父节点
α
α
α和子节点
β
1
,
.
.
.
,
β
n
β_1, ..., β_n
β1,...,βn的超边。每个超边本质上提供了一种可能的方法,可以使用子节点重新表达父节点传递的语义。比如在图1中,连接父节点
A
k
A^k
Ak和子节点
E
k
E^k
Ek,
A
k
+
1
A^{k+1}
Ak+1的超边解释了这样一个事实,即
A
k
A^k
Ak所覆盖的任何Mention要么其左边界恰好位于
k
(
E
k
)
k(E^k)
k(Ek),要么其左边界恰好在或严格在
k
+
1
(
A
k
+
1
)
k+1(A^{k+1})
k+1(Ak+1)之后。
类似地,对于每个
I
I
I节点,存在
3
3
3个超边将其连接到其他子节点。顶部超边(绿色)编码了当前单词出现在一个Mention中间的事实;底部超边(黄色)编码了当前单词作为最后一个单词出现在Mention中的事实;中间超边(棕色)编码了这两种情况可以同时发生的事实(即当前词属于同一类型的多个重叠Mentions)。我们有以下定理:
- 定理3.1:一个句子中Mentions的任何组合都可以用完整Mention Hypergraph的一个子超图来表示。
- 证明:对于任何一个Mention,在Mention Hypergraph中存在一个唯一的路径来表示它。对于Mentions的任何组合,Mention Hypergraph中都存在表示该组合的唯一路径。这些路径共同形成了原始超图的唯一子超图。
例如,考虑下面的句子:“he also talked with the egyptian president.” 这句话包含三个Mentions。第一个是
P
E
R
PER
PER类型的“he”,第二个是
P
E
R
PER
PER类型的“the egyptian president”,第三个是
G
P
E
GPE
GPE类型的“egyptian”。图2给出了子超图结构,显示了这些Mentions是如何被联合表示的。在输入句上定义的Mention Hypergraph以指数方式包含许多这样的子超图结构。
我们注意到定理3.1的逆命题是不成立的。在某些情况下,两个不同的重叠Mention组合可以共享同一个Mention Hypergraph。
例如,考虑一个样例句子A B C D,如图3所示,B C和A B C D都是
P
E
R
PER
PER类型的Mention(即一个被另一个严格包含,我们称这种组合为
I
I
I型组合)。下面的子超图显示了如何对这样的组合进行编码。但是,如果A B C和B C D都是
P
E
R
PER
PER类型的Mention(即两个Mentions内容重叠,但没有一个被对方包含在内,我们称这种组合为
I
I
II
II型组合),这样的组合与下面的子超图具有相同的表示。需要注意的是,只有当两个重叠的Mentions具有相同的类型,且其中一个被另一个严格包含且它们的边界都不同时,才会出现这种歧义。但在实践中,我们发现,在我们用于评估的两个数据集中,如果两个Mentions的内容相互重叠,它们几乎总是形成
I
I
I型组合,而
I
I
II
II型组合则非常罕见。根据经验,我们将在后面的实验中看到,我们的模型在处理重叠Mentions方面是有效的。
3.3 Log-Linear Modeling
根据条件随机场(Lafferty et al., 2001)的工作,我们采用对数线性模型(Log-liner Models)来完成Mention的抽取分类联合任务。具体来说,对于一个给定的输入句子
x
x
x,预测可能的输出
y
y
y(
y
y
y是一个表示特定Mentions组合的子超图)的概率如下所示:
其中
f
(
x
,
y
)
f(x, y)
f(x,y)是定义在输入输出对
(
x
,
y
)
(x, y)
(x,y)上的特征向量,权重向量
w
w
w给出了模型的参数。
我们的目标是最小化数据集上的正则化负联合对数似然函数:
其中
(
x
i
,
y
i
)
(x_i, y_i)
(xi,yi)表示第
i
i
i个训练实例,最后一项是
L
2
L_2
L2正则化项,其中
λ
λ
λ为正标量(在本文中固定为0.01)。
上述目标函数的导数为:
其中
w
k
w_k
wk是第
k
k
k个特征向量
f
k
f_k
fk的权重。
我们注意到,与许多最近的结构化预测的潜在变量方法不同(Petrov and Klein, 2007; Blunsom et al., 2008),我们能够用一个完整的结构来表示我们的每一个输出
y
y
y。因此,我们的目标函数本质上定义了一个标准的正则化softmax回归模型,因此是凸的(Boyd and Vandenberghe, 2004),并可以找到一个全局最优值。
式2中定义的目标函数可以用标准的梯度方法进行优化。我们使用
L
−
B
F
G
S
L-BFGS
L−BFGS(Liu and Nocedal, 1989)作为我们的优化方法。
3.4 Algorithms
为了解决上述优化问题,需要计算公式3中的梯度值。这个公式的第二项和第三项的计算是简单的。第一项涉及对给定输入句子所有可能的Mention组合的特征值的期望计算。遵循图模型中使用的经典动态规划算法,我们开发了类似的高效的超图动态规划算法,并推广了传统的前向-后向算法(Forward-backward/Inside-outside Algorithm)来有效地计算这些值。
- 时间复杂度:在每个时间步
k
k
k,我们需要计算
m
m
m个
I
I
I节点、
m
m
m个
T
T
T节点、
1
1
1个
E
E
E节点和
1
1
1个
A
A
A节点的分数。因此,算法的总时间复杂度为
O
(
m
n
)
O(mn)
O(mn)(假设在每个节点上计算特征分数的时间是常数),其中
m
m
m是可能的Mention类型的总数,
n
n
n是给定句子中的单词总数。(注意由于线性链CRF的一阶假设,其时间复杂度为
O
(
m
2
n
)
O(m^2n)
O(m2n)。)
3.5 Features
我们使用的特征受到(Carreras et al., 2002)的工作的启发。具体来说,我们考虑在输入上定义以下特征:
- 出现在当前单词(带有位置信息)周围的单词(以及POS标签,如果可用),窗口大小为3。
- 对于 n = 2 、 3 、 4 n = 2、3、4 n=2、3、4,包含当前单词(带有位置信息)的Word n-grams(以及POS n-grams,如果可用)。
- 当前单词周围的词袋(Bag of words),窗口大小为5。
- 词语模式特征(全大写、全数字、全字母数字、包含-数字、包含-点、包含-连字符、首字母、单字首、标点符号、罗马数字、单个字符、URL)。
注意,这些是在输入上定义的指示函数。最终的特征集定义在 ( x , y ) (x, y) (x,y)元组上,该元组由上面的指示函数和下面的指示函数叉积得到:
- 节点类型(比如 T T T或者 I I I)
此外,我们还将引入以下仅在输出结构上定义的特征:
- 精确连接一个 T T T节点和一个 I I I节点的超边的数目。
我们将此特征称为“mention penalty”。该特征学习了应该出现在任何输入句子中的Mention数量的全局偏好。
3.6 Joint Modeling of Mention Heads
对于Mention抽取和分类任务的一个额外假设是,每个Mention都带有头部信息(Head)。Head严格来说是Mention的一个子串,提供关于Mention的重要信息。扩展我们的模型来支持头部信息的联合建模是可能的,同时仍然保持相同的时间复杂性。
由于篇幅限制,我们只能在本节中对这个扩展进行相对简短的描述。其思想是用三种不同类型的节点替换
I
I
I节点,即
I
j
−
B
I_j-B
Ij−B节点(用于表示出现在
j
j
j类型的Mention中,且出现在它头部之前的单词),
I
j
−
W
I_j-W
Ij−W节点(用于表示出现在
j
j
j类型Mention的头部信息中的单词),
I
j
−
A
I_j-A
Ij−A节点(用于表示出现在
j
j
j类型的Mention中,且出现在它头部之后的单词)。还需要相应地建立超边,以便正确建模所有可能的Mention和Head组合。由于在这样一个新的超图中,在每一个时间步中,只涉及2个额外的节点,使用该模型进行学习和推理的时间复杂度保持不变,仍然是
O
(
m
n
)
O(mn)
O(mn)。
3.7 Optimization of F measure
命名实体识别的一个标准评估度量是
F
(
F
1
)
F (F_1)
F(F1)度量。在本任务中,
F
F
F值被定义为准确率(
P
P
P)和召回率(
R
R
R)的调和平均值,其中准确率为正确预测的Mentions数与预测的Mentions总数之比,召回率是指正确预测的Mentions数与Gold Mentions的总数之比。我们还将在稍后的评估中采用这些度量标准。遗憾的是,模型只优化了等式2中定义的目标函数,即负的(正则化的)联合对数似然。之前的工作表明,在对数线性模型中优化
F
F
F度量是可能的(Suzuki et al., 2006)。Culotta和McCallum(2004)也提出了一种基于置信度估计的信息抽取性能优化方法。他们的工作基于线性链CRF,并基于边缘概率估计提取字段的置信度。该技术并不直接适用于我们的任务,我们的任务使用超图表示对重叠Mentions进行编码。在这项工作中,我们使用了一个非常简单和直观的技术来优化
F
F
F度量。其思想是在训练过程完成后,根据开发集(development set)进一步调整单个参数——(mention penalty)的权重。这是基于如下观察,即通过增加mention penalty的值,迫使模型预测更多的Mentions。因此召回率是一个关于mention penalty的单调函数。基于这一事实,我们使用具有固定步长(0.01)的简单搜索算法来确定mention penalty的最优值,从而优化开发集的
F
F
F度量。
4 Experiments
在本节中,我们进行实验评估。我们的实验主要是在带有重叠Mentions的ACE2004和ACE2005数据集上进行的。在GENIA和CONLL2003数据集上还进行了两个额外的实验。
4.1 Results on ACE
我们的初步实验是基于ACE2004数据集和ACE2005数据集的英文部分进行的。遵循之前的工作,对于ACE2004数据集,我们考虑了来自arabic treebank, bnews, chinese treebank, nwire的所有文档;对于ACE2005数据集,我们考虑了来自bc, bn, nw, wl的所有文档。我们将每个数据集的文档随机分成三个部分:80%用于训练,10%用于开发,剩下的10%用于评估。表1总结了数据集的统计信息。我们可以看到重叠Mentions是很常见的——超过30%的句子包含重叠Mentions(见表的第3行)。Mentions也可以很长,超过5%的Mentions大于6个词,最长的Mention有57个词。
![](https://img-blog.csdnimg.cn/6aa55a77d1224928b9fe55ecf26693e5.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBALVN1c3N1cnJvLQ==,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
![](https://img-blog.csdnimg.cn/8e70aa8d097a41d7b2b7e9655e1f1742.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBALVN1c3N1cnJvLQ==,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
我们将系统的性能与几种基线方法进行了比较。我们首先利用条件随机场建立了两个基于序列标记模型的简单基线方法。这种方法不能处理重叠Mentions。为了训练这样的模型,当训练集中有两个Mentions彼此重叠时,我们将长度较短的Mention删除。遵循(Ratinov and Roth, 2009),我们考虑
B
I
O
BIO
BIO(Begin, Inside, Outside)和
B
I
L
O
U
BILOU
BILOU(Begin, Inside, Last, Outside, Unit)体系来设计输出标签。结果表明,
B
I
L
O
U
BILOU
BILOU方法具有较好的效果。Ratinov和Roth(2009)也说明了类似的结果。
在(Alex et al., 2007)的工作中,作者提出了几种构建模型的方法,以处理生物医学文本中的嵌套命名实体。他们的最佳结果是通过级联方法获得的,在这种方法中,他们为每个命名实体类构建一个模型。然后一个模型的输出可以作为下一个模型的输入,以预测不同类型的命名实体类。这种方法的一个基本限制是它不能处理相同类型的重叠Mentions。不过这种方法在两个数据集上都工作得很好。结果显示在表2的CRF(CC)行。
在信息抽取中经常使用的另一类模型是半马尔可夫条件随机场(Sarawagi and Cohen, 2004)。半马尔可夫条件随机场模型能够捕捉Mentions的非马尔科夫性。然而,它们不能处理嵌套或重叠Mentions。因此,我们使用与上面相同的方法来排除某些Mentions以进行训练。这种半马尔可夫条件随机场模型通常假设Mentions有长度限制——每个Mention最多包含
c
c
c个单词——以实现线性缩放。当这种限制解除时,模型的时间复杂度与输入句子中的单词数成二次关系。我们训练了两个模型:一个有长度限制,其中
c
=
6
c=6
c=6,另一个没有长度限制(
c
=
∞
c=\infty
c=∞)。对于在输入上定义的特征,除了3.5节中描述的马尔可夫特征之外,我们还使用了完整Mention跨度的形态特征。这两个模型的结果分别在表2的第4行和第5行。有趣的是,施加长度限制似乎有助于提高精度,因此它对最终的
F
F
F量度做出了积极的贡献。
我们优化负联合对数似然的基本模型(MH: Mention Hypergraph)能够在这两个数据集上获得最佳的准确率。当采用3.7节(MH (F))中描述的
F
F
F量度优化步骤进一步扩充模型时,它在这两个数据集的召回率和
F
F
F值上得到了最佳结果。
4.1.1 Running Time
我们还进行了对照实验,报告了我们模型的实际执行时间,并与线性链CRF模型(
B
I
L
O
U
BILOU
BILOU方法)进行了比较。实验都是在同一台机器上的ACE2004数据集上进行的。为了进行适当的比较,我们使用Java实现了线性链CRF模型(在实现我们的模型时使用了相同的语言),并使用相同的数据结构创建特征,以及相同的被我们的超图模型所使用的学习和推理例程。
为了理解当我们增加Mention类型(即语义类型)的数量时,特征和速度是如何变化的,我们还进行了增加可能Mention类型数量的实验。具体来说,我们从数据集中标注的每个原始类型创建子类型。例如,我们在数据集中用子类型
G
P
E
1
GPE1
GPE1或
G
P
E
2
GPE2
GPE2随机替换了类型
G
P
E
GPE
GPE。这给了我们14种不同的Mention类型。类似地,我们可以用子类型
G
P
E
1
GPE1
GPE1-
G
P
E
4
GPE4
GPE4随机替换类型
G
P
E
GPE
GPE,将有28种不同的Mention类型。我们这样做的目的是了解当可能的Mention类型的数量变得很大时,模型是如何表现的。我们发现使用带有大量Mention类型的线性链CRF模型在ACE2004的整个训练集进行训练是非常昂贵的,因为所涉及的特征数量非常多。因此我们选择在开发集上训练模型,并在测试集上给出解码时间。
结果如表3所示。我们通过经验捕获了每个系统的速度(每秒处理的平均单词数)和Mention类型数量之间的关系。具体来说,我们发现,当我们线性增加Mention类型的数量时,对于线性链CRF模型,特征的数量呈二次增长,速度呈二次下降,而对于我们的模型,特征的数量呈线性增长,速度呈线性下降。这表明,对于具有大量细粒度Mention类型的大型实用数据集,我们的模型具有更大的可伸缩性。
![](https://img-blog.csdnimg.cn/588566bfb5ac4bc38749bd0fef020619.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBALVN1c3N1cnJvLQ==,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
4.1.2 Joint Modeling of Heads
我们还在这两个数据集上进行了Mention边界、类型和头部信息的联合建模实验。我们使用相同的训练和调优方法来优化
F
F
F度量。在这样的实验中,我们采用了非常严格的评价标准:一个预测Mention被认为是正确的当且只当它的边界,类型和头部都完全符合Gold Standard。
我们将我们系统的结果与基于CRF的几种基线方法的结果进行了比较,这些基线方法总是使用上面描述的级联
B
I
L
O
U
BILOU
BILOU方法。具体来说,我们考虑的方法是将完全跨度(CC-S)、第一个单词(CC-F)和最后一个单词(CC-L)分别作为预测Mention的Head。我们还考虑了一种级联方法(CC-CC),在这种方法中,我们首先预测Mentions,然后按照上面讨论的用于预测重叠Mentions的类似方法预测他们的头部信息。表4的前四行给出了这些基线方法的结果。我们可以观察到,预测最后一个单词作为头部得到了最好的表现。受此启发,我们执行了一种简单的方法,即在不考虑头部信息的情况下训练上一节中介绍的模型。在做预测的时候,我们总是把每个预测Mention的最后一个词作为它的Head。这种方法的结果在表4的第五行中给出。第六行显示了优化我们模型的目标函数的结果。最后一行给出了根据开发集调优mention penalty所获得的结果。可见,我们的联合模型明显优于所有这些基线方法。我们不知道之前文献中有任何对Mention边界、类型和头进行联合建模的工作。
![](https://img-blog.csdnimg.cn/f6e7650c6ca04f0d90747362cf285505.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBALVN1c3N1cnJvLQ==,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
4.2 Additional Experiments
我们还对GENIA数据集(v3.02)进行了额外的评估,该数据集的重点是与生物医学相关的命名实体识别和分类,其中的实体可能相互重叠。此外,为了了解我们的模型如何在Mentions不相互重叠的数据集上工作,我们还对CONLL 2003数据集进行了评估。
4.2.1 Results on GENIA
我们按照Finkel和Manning(2009)的描述,在GENIA数据集上设置了我们的实验。具体来说,我们使用前90%的句子作为训练数据,剩下的10%作为评价数据。我们也采用了论文中关于将所有DNA子类变成DNA;RNA子类转化为RNA;蛋白质子类转化为蛋白质的解决方法。我们保留了细胞系和细胞类型,并删除了所有其他实体。
为了优化
F
F
F测度,我们进一步分割训练集为两部分。我们使用前90%的训练数据来训练模型,并使用剩下的10%进行开发。对于特征,没有使用POS和词袋特征。
我们将我们的模型的性能与基于(Finkel and Manning, 2009)提出的成分句法分析模型,以及半马尔可夫条件随机场模型的性能进行了比较。结果如表5所示。我们的模型比半马尔可夫条件随机场模型得到了更好的
F
F
F度量,但比(Finkel and Manning, 2009)的模型表现稍差。但是,我们注意到这些结果没有直接的可比性。具体来说,这两个之前的模型都依赖于从PubMed摘要中额外获得的2亿个单词来学习单词集群作为额外的特征,而这些是我们无法访问的。
![](https://img-blog.csdnimg.cn/9d6d4530de8f41c0863fc26f0d8e0202.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBALVN1c3N1cnJvLQ==,size_15,color_FFFFFF,t_70,g_se,x_16#pic_center)
我们模型的一个显著优势是效率和可伸缩性。(Finkel and Manning, 2009)的模型具有时间复杂度,其时间复杂度为输入句子中单词数的立方。相反,我们的模型随着输入句子长度的增加而线性增加。(在我们的实验中,对于这个数据集我们的模型标记超过5000个单词/秒。在(Finkel and Manning, 2009)中,作者提到他们的模型标记了大约38个单词/秒,半马尔可夫条件随机场模型标记了大约45个单词/秒。然而,我们注意到,由于CPU速度的提高,这些数字不能直接比较。)
4.2.2 Results on CONLL2003
为了了解我们的模型在Mentions或实体不相互重叠的数据集上的工作情况,我们在CONLL 2003共享任务中使用的标准数据集上进行了额外的实验,在该数据集上命名实体之间严格不重叠。我们将我们的系统的性能与最先进的Illinois NER system的基线版本进行了比较(Ratinov and Roth, 2009)。该系统对输入单词进行序列预测,采用
B
I
L
O
U
BILOU
BILOU方法。他们的完整模型也包含了外部知识资源(例如,地名词典和单词类别)。
为了与他们模型的基线版本进行适当的比较,除了我们前面提到的一般特性,我们还遵循(Ratinov and Roth, 2009)将单词的前缀和后缀(长度不超过5)合并作为特征,并将涉及月份、日期和数字的单词归一化。表6显示,我们的系统给出了一个
F
F
F度量,该度量与他们系统的基线版本(不使用外部资源)相当。
![](https://img-blog.csdnimg.cn/4042c376a329440da6e2918376762c64.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBALVN1c3N1cnJvLQ==,size_15,color_FFFFFF,t_70,g_se,x_16#pic_center)
这个额外的实验表明,虽然我们的模型是为处理Mentions可能重叠的更现实场景而设计的,但它的性能可以与只处理不重叠Mentions的最先进系统相媲美。
5 Conclusions
在本文中,我们提出了一种新颖的Mention边界、类型及其头部联合建模模型。与以往的Mention抽取和分类研究不同,本文提出的超图表示方法(Mention Hypergraph)将多个可能的Mentions以指数形式紧凑地表示出来,使得Mention的边界、类型和头部信息可以在一个框架中共同学习。该模型与输入句子中的单词数量成线性比例,并在能找到唯一的全局最优值的地方执行精确学习。根据经验,我们已经证明了这种模型在几个标准数据集上的有效性。未来的工作包括探索其他信息提取任务的高效算法,如Mention和关系联合抽取(Li and Ji, 2014)和事件抽取(Li et al., 2013)。