来源:ICML 2020
链接:http://arxiv.org/abs/2007.02387
摘要
本文研究的是小样本关系提取,其目的是通过对每个关系中的几个标记的例子进行训练来预测句子中一对实体的关系。为了更有效地推广到新的关系,本文研究了不同关系之间的关系,并建议利用全局关系图。我们提出了一种新的贝叶斯元学习方法来有效地学习关系原型向量的后验分布,其中原型向量的初始先验是用全局关系图上的图神经网络进行参数化。此外,为了有效优化原型向量的后验分布,我们建议使用随机梯度Langevin动力学,它与MAML算法有关,但能够处理原型向量的不确定性。整个框架可以以端到端的方式进行有效和高效的优化。在两个基准数据集上的实验证明了我们所提出的方法在小样本和零样本的情况下对竞争基线的有效性。
1 引言
自然语言处理中的一个基本问题是关系提取,其目的是识别句子中实体之间的关系。这个问题通常被研究为一个有监督的分类任务,通过标记的句子来训练。然而,对大量句子进行标注既费时又费钱。因此,对于这项任务来说,标记的数据数量非常有限。在实践中,应对这一挑战的常见解决方案是远距离监督(Mintz等人,2009),即利用知识图谱来自动生成训练数据。例如,在知识图谱中给定一个三联体(华盛顿、首都、美国),所有包含华盛顿和美国这两个实体的句子都将被贴上首都的关系标签。通过这种方式,可以为每个关系生成大量的训练数据,这种方法已经被广泛研究,并被证明非常有效。然而,远距离监督的一个限制是,生成的训练数据可能非常嘈杂。这是因为两个实体之间可能有多种关系,而且很难确定实体对在特定语境中属于哪种关系,或者句子是否有任何关系表达。
关系提取的另一种方法是关系提取的元学习(Han等人,2018;Gao等人,2019),这种方法引起了越来越多的兴趣。元学习的想法是用大量不同的任务来训练模型,每个任务都有几个例子来演示,这样学到的模型就可以快速泛化到只有几个例子的新任务。例如,模型不可知元学习(MAML)算法(Finn等人,2017)试图为神经模型的参数找到一个好的初始化,在此基础上,通过几步梯度下降,模型可以快速适应新的任务。另一个例子是原型网络(Snell等人,2017),它从每个类别的几个例子中学习一个原型向量,并进一步使用原型向量进行预测。基于这些技术,最近的少数研究(Han等人,2018;Gao等人,2019)能够在每个关系只有几个例子的情况下训练关系提取模型。尽管这些方法取得了令人鼓舞的改进,但由于训练数据的信息量仍然有限,其性能仍然不能令人满意。
为了更有效地推广到新的关系和任务,在本文中我们研究了不同关系之间的建模,并提出利用不同关系之间的全局图。在实践中,这种全局图可以通过不同的方式获得。例如,我们可以使用知识图谱嵌入算法(Bordes等人,2013;Sun等人,2019)来推断关系嵌入,然后基于关系嵌入构建K-近邻图。全局关系图提供了关于不同关系之间关系的先验知识,这使得我们可以在这些关系之间转移监督,甚至在不利用任何标记的句子的情况下对这些关系进行概括(即零样本学习)。
此外,我们提出了一种新颖的贝叶斯元学习方法,用于少样本关系提取,该方法通过学习基于标记的句子(又称支持集)和全局关系图的关系原型向量来解决这一问题。我们没有像MAML(Finn等人,2017)或原型网络(Snell等人,2017)那样学习点估计,而是遵循现有的贝叶斯元学习的工作(Gordon等人,2019;Kim等人,2018),旨在推断原型向量的后验分布,这能够有效处理向量的不确定性。后验可以自然地被分解为支持集上的似然函数,以及从全局图中获得的原型向量的先验。我们通过对全局图应用图神经网络(Kipf & Welling, 2017)对关系原型向量的先验分布进行参数化,使我们能够有效利用图中编码的不同关系之间的关系。
对于原型向量的后验分布,现有的研究(Gordon等,2019;Ravi & Beatson,2019)通常将其参数化为高斯分布,并且一般使用摊销的变异推理来学习后验分布。然而,原型向量的后验分布可能要比高斯分布复杂得多。在本文中,我们没有为原型向量的后验分布假设一个特定的分布,而是提出用随机梯度Langevin动力学技术(Welling & Teh, 2011)直接从后验分布中取样,该技术非常通用,可以应用于不同的分布。我们的方法可以看作是MAML的随机版本(Finn等人,2017),在梯度下降的每一步都会加入随机噪声,以模拟原型向量的不确定性。采样的原型向量被进一步用于对测试集的查询句子进行预测,整个框架可以以端到端的方式进行优化。
我们进行了广泛的实验,在两个基准数据集上评估了所提出的小样本关系提取方法。经验性结果证明了我们提出的方法在小样本和零样本关系提取的设置中比许多竞争性基线有效。
2 相关工作
2.1 小样本学习和元学习
我们的工作与小样本学习和元学习有关。目标是用多样化的任务来训练深度学习模型,每个任务由几个例子来指定示范,这样模型就可以快速适应新的任务。其中一种代表性的方法是基于度量的方法(Vinyals等人,2016;Snell等人,2017;Garcia & Bruna,2018;Sung等人,2018)。其基本思想是基于少数例子为每个类别学习一个原型向量,并使用原型向量进行预测。另一类代表方法是基于优化的方法(Finn等人,2017;Ravi & Larochelle,2017)。通常,这些方法将问题形式化为一个双级优化问题(Franceschi等人,2018)。外循环学习不同任务之间共享的全局参数,如模型参数的初始化。内环通过根据少数例子执行几步梯度下降,将共享参数适应于每个任务。与这些旨在学习原型向量或模型参数的点估计的方法相比,我们的方法将其视为随机变量并对其后验分布进行建模,从而可以处理这些原型向量或参数的不确定性。
此外,最近有几项研究(Kim et al.,2018; Gordon et al., 2019; Ravi & Beatson, 2019)也使用贝叶斯学习技术进行元学习,其中原型向量或模型参数的后验分布被推断出来。然而,这些方法忽略了不同类的关系,而我们通过将图神经网络(Kipf & Welling,2017;Gilmer等人,2017;Veliˇckovi´c等人,2018)应用于类的全局图来模拟它们的关系,使我们的方法能够更好地推广到所有不同的类。此外,我们以一种更有效的方式对后验分布进行建模。对于Gordon等人(2019年)和Ravi & Beatson(2019年)来说,他们使用一个简单的高斯分布,由一个摊销网络作为参数来近似真实的后验分布。然而,真正的后验分布可能比高斯分布更复杂,因此这些方法的精确度较低。Kim等人(2018)的另一种方法使用Stein Variational Gradient Descent(SVGD)(Liu & Wang,2016)从后验分布中抽取样本进行优化,但SVGD依赖于对不同样本进行适当设计的核函数,这可能很难选择。相比之下,我们的方法使用随机梯度Langevin动力学(Welling & Teh, 2011)来进行蒙特卡洛抽样优化,正如我们将在实验中展示的那样,这种方法更加灵活和有效。
2.2 关系抽取
关系提取是自然语言处理中的一项基本任务。给定一个句子中的两个实体,目标是预测句子中表达的关系。大多数现有的研究(Zeng等人,2014年;2015年;Zhang等人,2017年)集中在关系提取的监督或半监督设置上,他们假设有大量的标记句子可用。然而,在实践中,标记的句子数量可能非常有限。一些研究试图通过诉诸知识图谱来解决标记句子不足的挑战,其中现有的事实被用来通过远距离监督来注释未标记的句子(Mintz等人,2009)或提供额外的训练信号(Shwartz等人,2016;Qu等人,2018;朱等人,2019a)。尽管如此,以这种方式获得的数据或信号可能是非常嘈杂的。最近的一些研究(Han等人,2018;Gao等人,2019;Soares等人,2019)转而关注小样本关系提取,其目标是开发仅用少数标记的句子就能训练的模型。通过将元学习方法与BERT编码器相结合(Devlin等人,2019),这些方法取得了令人印象深刻的结果。然而,它们忽略了不同关系的连接,而这些关系在实践中自然存在。相比之下,我们将关系的全局图视为先验知识,并提出一个有原则的贝叶斯元学习方法来利用全局图,它能够更好地在不同的关系中进行概括。
3 问题定义
关系提取是许多研究领域中的一项重要任务,其目的是预测给定句子中两个实体的关系。大多数现有的关系提取方法需要大量的标记句子作为训练数据,而这些数据的获取是很昂贵的。因此,最近的研究集中在小样本关系提取上,即只给每个关系的几个例子作为训练数据。然而,由于这些例子中的信息有限,其结果仍然远远不能令人满意。为了进一步改善结果,应该考虑另一个数据源。
在本文中,我们提出用全局关系图来研究小样本关系提取,其中描述所有可能关系的全局图被假定为一个额外的数据源。更正式地说,我们把全局关系图表示为
G
=
(
R
,
L
)
\mathcal{G} = (\mathcal{R},\mathcal{L})
G=(R,L),其中
R
R
R 是所有可能关系的集合,而
L
L
L 是不同关系之间的链接集合。链接的关系可能有更多相似的语义。
在小样本关系提取中,每次我们只考虑整个关系集的一个子集,即
T
⊆
R
\mathcal{T}⊆\mathcal{R}
T⊆R。给定这些关系的一些支持句子
S
S
S,其中
x
S
=
{
x
s
}
s
∈
S
x_S = \{x_s\}_{s∈S}
xS={xs}s∈S 表示这些句子的文本,
y
S
=
{
y
s
}
s
∈
S
y_S = \{y_s\}_{s∈S}
yS={ys}s∈S 表示相应的标签,每个
y
s
∈
T
y_s∈\mathcal{T}
ys∈T,我们的目标是通过使用全局图和支持句子为这些关系学习一个神经分类器。然后,给定一些未标记的句子作为查询
x
Q
=
{
x
q
}
q
∈
Q
x_Q = \{x_q\}_{q∈Q}
xQ={xq}q∈Q,我们将应用分类器来预测它们的标签,即
y
Q
=
{
y
q
}
q
∈
Q
y_Q = \{y_q\}_{q∈Q}
yQ={yq}q∈Q,每个
y
q
∈
T
y_q∈\mathcal{T}
yq∈T。
4 模型
在这一节中,我们介绍了我们用全局关系图提取小样本关系的方法。我们的方法用一个原型向量来表示每个关系,它可以用来对查询句子进行分类。与大多数现有的元学习方法(学习原型向量的点估计)相比,我们将原型向量作为一个随机变量来模拟其后验分布。后验分布自然由两个项组成,即从全局关系图中获得的原型向量的先验,以及支持句子上的似然函数。我们的方法是通过对全局关系图应用图神经网络来确定先验分布的参数。通过使用这样一个基于图的先验,我们的方法可以有效地推广到不同的关系。然而,优化在我们的方法中仍然具有挑战性,因为原型向量的后验分布有一个复杂的形式。为了解决这个问题,我们通过蒙特卡洛抽样对后验分布进行了近似,即通过使用随机梯度Langevin动力学抽取多个原型向量样本。通过这样做,我们的方法可以有效地以端到端的方式进行优化。
4.1 概率的形式化表示
我们的方法使用贝叶斯学习技术来进行小样本关系提取,在这里我们以概率的方式来形式化这个问题。更具体地说,回顾一下,给定一个关系子集
T
⊆
R
\mathcal{T}⊆\mathcal{R}
T⊆R,目标是根据全局关系图
G
\mathcal{G}
G 和少数支持句子
(
x
S
,
y
S
)
(x_S,y_S)
(xS,yS) 来预测一些查询文本
x
Q
x_Q
xQ 的标签
y
Q
y_Q
yQ。从形式上看,我们的目标可以被表述为计算以下对数概率:
l
o
g
p
(
y
Q
∣
x
Q
,
x
S
,
y
S
,
G
)
(1)
\begin{aligned} log \ p(y_Q|x_Q,x_S,y_S,\mathcal{G}) \tag{1}\\ \end{aligned}
log p(yQ∣xQ,xS,yS,G)(1)我们通过用一个原型向量
v
r
v_r
vr 代表每个关系
r
∈
T
r∈\mathcal{T}
r∈T 来计算概率,这个原型向量概括了该关系的语义。通过引入这种原型向量,对数概率可以被分解为:
l
o
g
p
(
y
Q
∣
x
Q
,
x
S
,
y
S
,
G
)
=
l
o
g
∫
p
(
y
Q
∣
x
Q
,
v
T
)
p
(
v
T
∣
x
s
,
y
S
,
G
)
d
v
T
(2)
\begin{aligned} log \ p(y_Q|x_Q,x_S,y_S,\mathcal{G})=log\int p(y_Q|x_Q,v_{\mathcal{T}})p(v_{\mathcal{T}}|x_s, y_S, \mathcal{G})dv_{\mathcal{T}} \tag{2}\\ \end{aligned}
log p(yQ∣xQ,xS,yS,G)=log∫p(yQ∣xQ,vT)p(vT∣xs,yS,G)dvT(2)其中
v
T
=
{
v
r
}
r
∈
T
v_{\mathcal{T}} = \{v_r\}_{r∈\mathcal{T}}
vT={vr}r∈T 是
T
\mathcal{T}
T 中所有目标关系的原型向量的集合。这些原型向量由支持集和全局关系图中的标签句子通过分布
p
(
v
T
∣
x
S
,
y
S
,
G
)
p(v_{\mathcal{T}}|x_S, y_S, \mathcal{G})
p(vT∣xS,yS,G) 来描述。有了这样的原型向量来代表目标关系,查询句子标签的分布就可以通过一个 softmax 函数定义如下:
p
(
y
Q
∣
x
Q
,
v
T
)
=
∏
q
∈
Q
p
(
y
q
∣
x
q
,
v
T
)
,
w
i
t
h
e
a
c
h
p
(
y
q
=
r
∣
x
q
,
v
T
)
=
e
x
p
(
E
(
x
q
)
⋅
v
r
)
∑
r
′
∈
T
e
x
p
(
E
(
x
q
)
⋅
v
r
′
)
(3)
\begin{aligned} p(y_Q|x_Q,v_{\mathcal{T}})=\prod_{q\in Q}p(y_q|x_q,v_{\mathcal{T}}),with\ each\\p(y_q=r|x_q,v_{\mathcal{T}})=\frac{exp(\mathcal{E}(x_q)·v_r)}{\sum_{r'\in \mathcal{T}}exp(\mathcal{E}(x_q)·v_r')}\tag{3}\\ \end{aligned}
p(yQ∣xQ,vT)=q∈Q∏p(yq∣xq,vT),with eachp(yq=r∣xq,vT)=∑r′∈Texp(E(xq)⋅vr′)exp(E(xq)⋅vr)(3)其中
E
\mathcal{E}
E 是一个句子编码器,它将一个查询句子
x
q
x_q
xq 编码为
E
(
x
q
)
\mathcal{E}(x_q)
E(xq)。直观地说,我们计算编码和原型向量
v
r
v_r
vr 的点积,以估计该句子表达关系的可能性。
在这样的形式化下,关键是如何对
p
(
v
T
∣
x
S
,
y
S
,
G
)
p(v_{\mathcal{T}} |x_S, y_S, \mathcal{G})
p(vT∣xS,yS,G) 进行参数化,这是原型向量的后验分布,其条件是支持句子和全局关系图。接下来,我们将介绍如何在我们提出的方法中对后验分布进行参数化。
4.2 后验分布的参数化
为了对原型向量的后验分布进行建模,我们注意到后验可以自然地被分解为一个以关系图为条件的先验分布,以及一个关于少数支持句子的似然函数。因此,我们可以用以下方式正式表示后验(
∝
\propto
∝是正比于符号):
p
(
v
T
∣
x
S
,
y
S
,
G
)
∝
p
(
y
S
∣
x
S
,
v
T
)
p
(
v
T
∣
G
)
(4)
\begin{aligned} p(v_{\mathcal{T}}|x_S,y_S,\mathcal{G})\propto p(y_S|x_S,v_{\mathcal{T}})p(v_{\mathcal{T}}|\mathcal{G})\tag{4}\\ \end{aligned}
p(vT∣xS,yS,G)∝p(yS∣xS,vT)p(vT∣G)(4)其中
p
(
v
T
∣
G
)
p(v_{\mathcal{T}} |\mathcal{G})
p(vT∣G) 是原型向量的先验,
p
(
y
S
∣
x
S
,
v
T
)
p(y_S|x_S, v_{\mathcal{T}})
p(yS∣xS,vT) 是支持句子的似然。
为了从全局关系图中提取知识来表征先验分布,我们在方法中引入了图神经网络(Kipf & Welling, 2017; Gilmer等人, 2017; Veliˇckovi´c等人, 2018; Qu等人, 2019)。图神经网络被表示为
F
\mathcal{F}
F ,它可以为每个关系r学习一个潜在的表征
h
r
h_r
hr,即
h
r
=
F
(
G
)
r
h_r=\mathcal{F}(\mathcal{G})_r
hr=F(G)r。更具体地说,图神经网络
F
\mathcal{F}
F 将每个关系的潜伏嵌入
h
r
h_r
hr 初始化为其初始特征向量。然后,
F
\mathcal{F}
F 根据
r
r
r 和
r
r
r 的邻居的嵌入,迭代更新每个关系
r
r
r 的潜伏嵌入。从形式上看,
F
\mathcal{F}
F 更新嵌入的方式如下:
h
r
←
U
{
∑
r
′
∈
N
B
(
r
)
M
(
h
r
′
)
,
h
r
}
(5)
\begin{aligned} h_r←\mathcal{U}\{\sum_{r'\in NB(r)}\mathcal{M}(h_{r'}),h_r\}\tag{5}\\ \end{aligned}
hr←U{r′∈NB(r)∑M(hr′),hr}(5)
其中
N
B
(
r
)
NB(r)
NB(r) 是
r
r
r 在全局图中的邻居,而
M
\mathcal{M}
M 是一个转换函数。基本上,对于每个关系
r
r
r,我们将
M
\mathcal{M}
M 应用于
r
r
r 的邻居的潜伏嵌入,然后将转换后的嵌入聚集在一起。最后,
r
r
r 的潜在嵌入通过更新函数
U
\mathcal{U}
U 根据其先前的值和聚集的嵌入进行更新。经过几轮这样的更新,全局图中编码的不同关系之间的关系可以有效地保留在最终的关系嵌入中,这可以作为原型向量的规范化。受此启发,我们将原型向量的先验分布
p
(
v
T
∣
G
)
p(v_{\mathcal{T}} |\mathcal{G})
p(vT∣G) 参数化如下:
p
(
v
T
∣
G
)
=
∏
r
∈
T
p
(
v
r
∣
h
r
)
=
∏
r
∈
T
N
(
v
r
∣
h
r
,
I
)
(6)
\begin{aligned} p(v_{\mathcal{T}}|\mathcal{G})=\prod_{r\in \mathcal{T}}p(v_r|h_r)=\prod_{r\in \mathcal{T}}N(v_r|h_r,\mathcal{I})\tag{6}\\ \end{aligned}
p(vT∣G)=r∈T∏p(vr∣hr)=r∈T∏N(vr∣hr,I)(6)其中,我们对每个关系
r
∈
T
r∈\mathcal{T}
r∈T 的先验分布进行独立建模。对于每个关系,我们将其先验定义为高斯分布,其中平均值被设定为图神经网络
F
\mathcal{F}
F 给出的潜在表示
h
r
h_r
hr。通过这种方式,来自关系图的知识可以有效地提炼成先验分布,使我们的方法能够更好地推广到广泛的关系。
除了基于图的先验,在对原型向量的后验分布进行参数化时,我们还考虑支持句子的似然。与公式(3)中查询句子上的似然性相似,支持句子上的似然性可以被描述为如下:
p
(
y
S
∣
x
S
,
v
T
)
=
∏
s
∈
S
p
(
y
s
∣
x
s
,
v
T
)
,
w
i
t
h
e
a
c
h
p
(
y
s
=
r
∣
x
s
,
v
T
)
=
e
x
p
(
E
(
x
s
)
⋅
v
r
)
∑
r
′
∈
T
e
x
p
(
E
(
x
s
)
⋅
v
r
′
)
(7)
\begin{aligned} p(y_S|x_S,v_{\mathcal{T}})=\prod_{s\in S}p(y_s|x_s,v_{\mathcal{T}}),with\ each\\p(y_s=r|x_s,v_{\mathcal{T}})=\frac{exp(\mathcal{E}(x_s)·v_r)}{\sum_{r'\in \mathcal{T}}exp(\mathcal{E}(x_s)·v_r')}\tag{7}\\ \end{aligned}
p(yS∣xS,vT)=s∈S∏p(ys∣xs,vT),with eachp(ys=r∣xs,vT)=∑r′∈Texp(E(xs)⋅vr′)exp(E(xs)⋅vr)(7)其中
E
\mathcal{E}
E 是句子编码器。通过将支持集上的似然性应用于原型向量的先验分布,我们可以有效地将先验分布适应于具有少数支持句子的目标关系。通过这种方式,后验分布结合了全局关系图和支持句子的知识,因此可以用来对查询句子进行有效分类。
4.3 优化和预测
在上一节中,我们介绍了我们如何对原型向量的后验分布进行参数化。接下来,我们将解释模型的优化和预测。
在模型优化和预测过程中,我们必须处理对数概率
l
o
g
p
(
y
Q
∣
x
Q
,
x
S
,
y
S
,
G
)
log \ p(y_Q|x_Q, x_S, y_S, \mathcal{G})
log p(yQ∣xQ,xS,yS,G),在这里我们要么最大化要么计算这个值。然而,根据公式(2),对数概率依赖于对原型向量的积分,这是不可能的。因此,我们用蒙特卡洛抽样来估计对数概率,即从后验分布中抽取几个原型向量的样本进行近似:
l
o
g
p
(
y
Q
∣
x
Q
,
x
S
,
y
S
,
G
)
=
l
o
g
E
p
(
v
T
∣
x
S
,
y
S
,
G
)
[
p
(
y
Q
∣
x
Q
,
v
T
)
]
≈
l
o
g
1
L
∑
l
=
1
L
p
(
y
Q
∣
x
Q
,
v
T
(
l
)
)
(8)
\begin{aligned} log \ p(y_Q|x_Q, x_S, y_S, \mathcal{G})\\=log \ \mathbb{E}_{p(v_{\mathcal{T}}|x_S,y_S,\mathcal{G})}[p(y_Q|x_Q,v_{\mathcal{T}})]\\ \approx log\frac{1}{L}\sum^L_{l=1}p(y_Q|x_Q,v^{(l)}_{\mathcal{T}})\tag{8}\\ \end{aligned}
log p(yQ∣xQ,xS,yS,G)=log Ep(vT∣xS,yS,G)[p(yQ∣xQ,vT)]≈logL1l=1∑Lp(yQ∣xQ,vT(l))(8)这里,
v
T
(
l
)
v^{(l)}_{\mathcal{T}}
vT(l) 是从后验分布中抽取的样本,即
v
T
(
l
)
∼
p
(
v
T
∣
x
S
,
y
S
,
G
)
v^{(l)}_{\mathcal{T}}\sim p(v_{\mathcal{T}}|x_S,y_S,\mathcal{G})
vT(l)∼p(vT∣xS,yS,G)。然而,如公式(4)所示,后验分布结合了基于图形的先验和支持句子的似然函数。基于图的先验是一个高斯分布,而似然函数是由一个softmax函数指定的。因此,后验分布有一个非常复杂的形式,从后验中取样是不容易的。为了解决这个问题,本文使用了随机梯度Langevin动力学(Welling & Teh, 2011),它通过多个随机更新来执行采样。形式上,为了抽取原型向量的样本
v
^
T
\hat v_{\mathcal{T}}
v^T,我们可以随机初始化样本
v
^
T
\hat v_{\mathcal{T}}
v^T,并迭代更新样本,如下所示(
∇
\nabla
∇表示梯度):
v
^
T
←
v
^
T
+
ϵ
2
∇
v
^
T
l
o
g
p
(
y
S
∣
x
S
,
v
^
T
)
p
(
v
^
T
∣
G
)
+
ϵ
z
^
(9)
\begin{aligned} \hat v_{\mathcal{T}}←\hat v_{\mathcal{T}} + \frac{\epsilon}{2}\nabla_{\hat v_{\mathcal{T}}}log \ p(y_S|x_S,\hat v_{\mathcal{T}})p(\hat v_{\mathcal{T}}|\mathcal{G})+\sqrt{\epsilon}\hat z\tag{9}\\ \end{aligned}
v^T←v^T+2ϵ∇v^Tlog p(yS∣xS,v^T)p(v^T∣G)+ϵz^(9)其中
z
^
∼
N
(
0
,
I
)
\hat z\sim \mathcal{N}(0,\mathcal{I})
z^∼N(0,I)是标准高斯分布的一个样本。在经过一个磨合期后,
v
^
T
\hat v_{\mathcal{T}}
v^T 就可以被当作原型向量后验分布中的一个真实样本。在上述更新规则中,术语
∇
v
^
T
l
o
g
p
(
y
S
∣
x
S
,
v
^
T
)
p
(
v
^
T
∣
h
T
)
\nabla_{\hat v_{\mathcal{T}}}log \ p(y_S|x_S,\hat v_{\mathcal{T}})p(\hat v_{\mathcal{T}}|h_{\mathcal{T}})
∇v^Tlog p(yS∣xS,v^T)p(v^T∣hT) 与MAML算法(Finn等人,2017)高度相关,因为它们都旨在将样本向支持句子上的可能性
l
o
g
p
(
y
S
∣
x
S
,
v
^
T
)
log \ p(y_S|x_S,\hat v_{\mathcal{T}})
log p(yS∣xS,v^T) 最大化移动,从而适应
T
\mathcal{T}
T 的目标关系。不同的是,我们还利用了基于图的先验
p
(
v
^
T
∣
G
)
p(\hat v_{\mathcal{T}}|\mathcal{G})
p(v^T∣G) 来指导这个过程。此外,在每一步,都会加入一个随机噪声
z
^
\hat z
z^,使我们能够从后验分布
p
(
v
T
∣
x
S
,
y
S
,
G
)
p(v_{\mathcal{T}} |x_S, y_S, \mathcal{G})
p(vT∣xS,yS,G) 中得到不同的样本,而不是一个具有最大后验概率的样本。换句话说,我们的方法能够对原型向量的不确定性进行建模。
然而,Langevin动力学需要一个燃烧期,这可能需要很长的时间。为了加速这一过程,让样本停留在后验分布的高密度区域是很有帮助的,这样我们可以更好地在这些区域周围进行探索(Gong等人,2019)。因此,我们试图在一个具有高后验概率的点上初始化样本
v
^
T
\hat v_{\mathcal{T}}
v^T。为了实现这一目标,我们在附录中从理论上论证了一个适当的初始化可以如下给出:
v
^
T
←
{
v
^
r
}
r
∈
T
,
w
i
t
h
e
a
c
h
v
^
r
←
m
r
+
h
r
−
m
(10)
\begin{aligned} \hat v_{\mathcal{T}}←\{\hat v_{r}\}_{r\in \mathcal{T}},with \ each\\\hat v_{r}←m_r+h_r-m\tag{10}\\ \end{aligned}
v^T←{v^r}r∈T,with eachv^r←mr+hr−m(10)其中,
h
r
h_r
hr 是图神经网络在全局关系图上给出的关系
r
r
r 的潜在嵌入,
m
r
m_r
mr 是支持集中关系
r
r
r 下所有句子的平均编码,
m
m
m 是支持集中所有句子的平均编码。直观地说,对于每个关系
r
r
r,我们将全局关系图中的潜在嵌入
h
r
h_r
hr 和该关系的给定例子中的平均编码
m
r
m_r
mr 加在一起。同时,我们还要减去支持集中所有句子的平均编码
m
m
m,这样我们就可以更好地区分来自不同关系的句子。在实践中,我们为
h
r
h_r
hr 和
m
m
m 引入两个超参数来控制它们的相对权重。有了这样的初始化,我们可以根据经验保证 Langevin 动力学会迅速收敛。
一旦我们从原型向量的后验分布中获得了原型向量的样本,我们就可以根据公式(8)利用样本进行优化并计算出
l
o
g
p
(
y
Q
∣
x
Q
,
x
S
,
y
S
,
G
)
log \ p(y_Q|x_Q,x_S,y_S,\mathcal{G})
log p(yQ∣xQ,xS,yS,G)。整个优化过程是端到端的,我们将优化算法总结在Alg. 1.
5 实验
在这一节中,我们在两个基准数据集上对我们提出的方法进行了实证评估,我们同时考虑了小样本和零样本学习设置。
5.1 数据集