摘要
本文在四阶张量Tucker分解的启发下,建立了一种新的时态知识图补全张量分解模型。此外,提出了几个正则化方案来改进策略,并研究它们对所提模型的影响。在三个时间数据集(ICEWS2014, ICEWS2005-15, GDELT)上的实验研究证明了设计是正确的,并证明了模型在链接预测任务上有明确的边际优于基线。
背景
tucker可以将一个张量X分解成一个核心张量G和三个矩阵A,B,C。
◦表示向量交叉积,核心张量G可以捕捉到不同分量之间相互作用的信息。每个模态A, B, C的矩阵相互正交。×n表示沿第n模态的张量积。此外,如果核心张量是super-diagonal矩阵且满足r1 = r2 = r3, Tucker分解等价于CP分解。
TuckER采用这种方式分解KGs补全,将矩阵A和C视为实体嵌入E, E = A = C。B视为谓词嵌入R。评分函数表示为:
其中W是核心张量,W中的参数个数只依赖于实体和谓词的嵌入维数,而不依赖于实体或谓词的个数。
方法
通过添加时间信息得到TuckERT:
TuckERT分解的内积形式如下:
获得与时间相关的嵌入可以看作是TuckERT分解的逆过程:
为了对时间事实和非时间事实两种知识进行建模。提出了TuckERTNT模型,该模型是TuckERT的一个变体:
TuckERTNT分解的具体形式可以描述如下:
在Tucker分解的基础上,将时间信息与谓词关联起来学习时间依赖嵌入,并利用核心张量的参数来增加实体与时间依赖谓词在各个维度上的交互程度。
TComplEx可以被视为等同于TuckERT。
通过倒谓词来学习参数(o,p-1,s,t)。最小化瞬时多级损失来训练模型。
o’为用假对象替换的负样本。
为防止过拟合,加入正则化约束,时间方向的正则化公式:
为防止过拟合,对头实体,时间和非时间谓词,尾实体,核心张量都进行了正则化约束,研究了以下两类正则化约束下的影响,此外,在每种正则化方案的基础上,分别研究了施加约束和不施加约束对核张量的影响:
||•||F表示Frobenius范数,||•||k是张量范数的k次幂
||•||p是矩阵的Lp范数,||•||q表示张量范数的q次幂
同时考虑瞬时多类损失和上述两类正则化项,通过最小化以下损失函数来训练模型:
其中R∗(E,·)表示上面提到的四种嵌入正则化之一
TuckERT分解为:
实验结果
研究了时间正则化和不同嵌入正则化对TuckERTNT模型的影响,此外,对核心张量施加约束对模型没有太大影响:
嵌入维数对模型的影响:
嵌入维数越高,核心张量包含的参数越多,在提高性能的同时,效率会急剧下降。因此,综合考虑所提模型的效率和有效性,最终将嵌入维数设置为300。
本文模型和基线模型的训练曲线。
(1)TuckERT模型和TuckERTNT模型在训练过程中的表达性几乎相同,这说明两种模型在测试集上可能有密切的链接预测结果。
(2)在稳定阶段,模型的训练损失低于基线模型TComplEx和TNTComplEx,表明模型具有更强的表达能力和鲁棒性
在ICEWS14数据集上分别训练将时间信息与头实体、谓词和尾实体关联的模型的性能。
两种模型的性能略有不同。可能的原因推测如下。将时间与实体和关系绑定的模型的性能随数据形式的不同而不同,
例如,对于(爱因斯坦,出生,乌尔姆,1879)(爱因斯坦,获得,诺贝尔奖,1922),(爱因斯坦,死于,普林斯顿,1955)和
(爱因斯坦,出生,乌尔姆,1879),(奥巴马,出生,夏威夷,1961),(川普,出生,纽约,1946)两种数据形式,时间关联实体的模型和时间关联关系的模型的性能是不同的。
结论
张量分解在知识完成任务中得到了广泛的应用,无论是静态任务还是时间任务。在这项工作中,我们开发了一个新的分解模型,从广义的角度来连接张量分解和TKGs补全。在此基础上,我们介绍了几种正则化方案,以研究正则化对所提模型的影响。证明了本文的方法是充分表达(可以区分正负样本),在三个基准上与现有的最先进的工作比较,TuckERT/TuckERTNT取得了出色的性能。然而,与之前的模型相比,本文模型仍然包含了更多的参数,并且当嵌入维数超过阈值时,对效率有限制。未来的工作可能会设计一个轻量级但功能强大的模型,进一步的工作可能会考虑探索一种新的临时KGs完成模式。