9.4 知识图谱嵌入方法的研究-知网-曾国燕-电子科技大学.2022-链接预测定义及常用数据集

        一般来说,通常使用链接预测任务评价知识图谱嵌入模型性能。

一、链接预测定义

        链接预测指通过三元组中的两个已知预测另一个未知的关系或者实体。简单来说,也就是 (h, r, ?),(?, r, t),(h, ?, t)。

        图 3­-1 是一张有关姚明的图谱。图中深色圆圈表示实体姚明,与姚明相关的实体以浅色圆圈表示,实线箭头表示知识图谱中已存在的关系,虚线代表可能存在的三元组。图中有三个已知三元组,分别是(姚明,父亲,姚志源)、(姚明,搭档,王治郅)、(姚明,副董事长,CBA),它们都与实体姚明有关。同时,与姚明相关的实体之间有可能存在某种潜在的关系,这个关系在图谱中是缺失的。链接预测的目的是去找到知识图谱中未知的潜在联系。在这张图谱中,虚线表示要去 判断是否存在的关系。链接预测任务是计算出“姚志源”和“王治郅”存在关系的概率是多少,如是存在,存在怎样的特定关系。对于判断“CBA”和“王治郅”之间的关系,模型同样做一次链接预测。 当知识图谱的嵌入学习完成后,知识图谱嵌入就可以通过排序完成链接预测任务。例如为了找到姚明的另一个搭档,需要链接预测(姚明,搭档,?),就可以将知识图谱中的每个实体都放在尾实体的位置上构成不同的三元组,并且将这些三元组放入相应的知识图谱嵌入模型,通过评分函数,计算不同实体作为该三元组的尾实体的得分,也就是该三元组的合理性,而得分最高的实体会被视为链接预测的结果。

                

二、链接预测任务常用数据集

        FB15k­237、WN18RR 是链接预测任务常用的两个数据集。

        (1)FB15k­237 数据集

        Freebase 是一个允许用户自由创作的平台网站。Freebase 数据量是十分庞大的,并且,Freebase 支持用户对数据进行协同操作和维护,也就是支持信息之间的丰富关联并且赋能这种关联的使用。Freebase 不仅数据量大,而且数据包含非常多话题和类型的知识,包含关于人类、媒体、地理位置等等信息。Freebase 结构式的数据形式,符合人们学习知识的思维框架,因此常用于知识图谱链接预测任务中。 由于 Freebase 数据库本身数据量非常庞大,不易使用,所以,一般在链接预测任务中使用其子集。FB15k 是其中一个子集。FB15k 将数据集分为训练集、验证集和测试集,它们中三元组数量分别是 483142 个、50000 个、59071 个。并且,所有三元组都是唯一的,但出现在验证集和测试集中的同义词集也出现在训练集中。FB15k 是一个包含大规模常识性知识的知识图谱,该图谱中关系的类型主要是对称关系、非对称关系和反转关系。

        FB15k 由于反关系而遭受测试泄漏:通过将训练组中的三元组反转即可简单地获得大量的三元组。例如,测试集经常包含三元组,例如(s,下位词,o),而训练集则包含其倒数(o,上位词,s)。为了创建不具有此属性的数据集,引入了 FB15k 的子集——FB15k­237 ,其中的逆关系已删除。在链接预测任务上常用的数据集是 FB15k­237。FB15k­237 数据集包含 237 种关系类型和 14541 种实体,是一个比较新的数据集,该数据集保留的关系主要是对称、非对称和组合关系,去 掉了反转关系。去除了反转关系后的数据集 FB15k­237 中的语义信息更难被模型学习到。

        (2)WN18RR 数据集

        Word-­Net 是一个词汇语义网,按照词的属性组成同义词网络,每个同义词网络之间存在某种连接关系,是链接预测常用数据集。WN18 是 Word­Net 的子集,包含 40943 个实体,18 种关系类型。WN18 包含三个数据集:训练集(包含 141442 个三元组),验证集(包含 5000 个三元组)和测试集(包含 5000 个三元组)。同 FB15k 一样,WN18 存在测试泄漏,由此创建了WN18RR 数据集。WN18RR 数据集从 WN18 删除了验证集和测试集种的逆关系,对 WN18 进行了更正,包含 40943 个实体和 11 种关系类型

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值