Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

1.相关工作

1)基于结构的知识嵌入

进一步分成基于翻译的模型和基于语义匹配的模型
基于翻译的模型采用基于距离的评分函数,TransE把实体和关系嵌入到一个维度为d的共享向量空间中;TransH,TransR,RotatE.
语义匹配模型采用基于相似性的评分函数,RESCAL,DistMult,CoKE.

2)基于描述的知识嵌入

DKRL [Xie等人,2016]首先引入实体的描述,并通过卷积神经网络对其进行编码。
KEPLER [Wang等人,2019b]使用PLM作为编码器来派生基于描述的嵌入,并以KE和PLM的目标进行训练。
Pretrain-KGE [Zhang et al ., 2020b]提出了一种通用的基于描述的KE框架,该框架使用基于描述的嵌入初始化另一个可学习的KE,并在微调plm后丢弃plm以提高效率。
KGBERT [Yao等人,2019]将h, r, t的描述作为一个输入序列连接到plm,并通过序列嵌入对这三个序列进行评分。
StAR

2.LMKE模型

在本文中,我们提出了一个更好地将语言模型用作知识嵌入的方法LMKE(Language Models as Knowledge Embeddings),同时利用结构信息和文本信息。
在这里插入图片描述
在这里插入图片描述

嵌入完,要进行链接预测和三元组分类两个任务。三元组分类基于上面的p(u)可以进行。但链接预测需要预测出不完整实体的缺失实体,需要将候选实体(一般是所有实体)填入不完整三元组,并把相应的三元组打分,再对候选实体按照得分进行排序。但是上面的LMKE模型,这个流程的时间复杂度太高。
所以就有了下面的变体

为了让语言模型高效用于链接预测任务,一个简单的方式是不完整地编码三元组,而仅编码部分三元组。

MEM-KGC模型

MEM-KGC可以看作LMKE的masked变体,将待预测的缺失实体和其文本描述mask,并将相应的向量表示q输入一个线性层来预测缺失实体。
降低了时间复杂度,担忽略了待预测实体的文本信息,降低了文本信息的利用率。
提出了一个对比学习框架来更充分利用文本信息
在框架中,给定的实体-关系对被看作查询q,目标实体(缺失实体)被看作键k,通过匹配q和k进行对比学习。

3.C-LMKE模型(本文提出的模型)

C-LMKE是对比学习框架下的LMKE变体,
在这里插入图片描述
C-LMKE进行批次内的对比匹配,从而避免编码负样本带来的额外开销。
具体来说,对于batch中的第i个三元组,它的给定实体关系对q和目标实体k构成一个正样本,而同batch内其他三元组的目标实体k’与q构成负样本。
C-LMKE在训练和链接预测时的时间复杂度均显著优于现有基于文本的方法。
使用双层MLP(多层感知器)来计算q和k的匹配度,而不是使用对比学习中常用的余弦相似度,因为可能存在多个键匹配q。
如果k1和k2都匹配q,并且我们最大化(q, k1)和(q, k2)之间的相似性,(k1, k2)也会被强制相似,这是不可取的。因此,q与k匹配的概率为:

在这里插入图片描述
d_q和d_k是度数信息,对应实体在训练集中三元组个数
基于得分p(q, k),我们使用二元交叉熵作为损失函数进行训练,并参考RotatE中提出的自对抗负采样来提高难负样本的损失权重。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

失眠的树亚

你的鼓励是我最大的创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值