WN18RR、FB15k-237 和 Cross3domain 数据集

朋也透william

于 2024-08-15 21:30:51 发布

阅读量444

点赞数 11

文章标签： KG

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44012667/article/details/141232156

版权

1. WN18RR 数据集

数据样本特征描述

样本形式： 每个数据样本由三元组 (h,r,t)表示，其中：
- h是头实体（head entity）
- r是关系（relation）
- t是尾实体（tail entity）
数据规模：
- 关系（Relations）： 11 种
- 实体（Entities）： 40,943 个
- 训练集（Training set）： 86,835 个三元组
- 验证集（Validation set）： 3,034 个三元组
- 测试集（Test set）： 3,134 个三元组
数据样本示例：
- ("Arthur", "is_related_to", "Camelot")
- ("Merlin", "has_ability", "Magic")

ML任务形式化

任务： 链接预测（Link Prediction），也称为实体预测（Entity Prediction）或实体排名（Entity Ranking）。
形式化表述：
- 给定一个三元组 (h,r,?)或 (?,r,t)，预测未知的实体。具体而言：
  - 头实体预测： 已知尾实体 t和关系 r，预测头实体 h。
  - 尾实体预测： 已知头实体 h 和关系 r，预测尾实体 t。
评价指标：
- Mean Reciprocal Rank (MRR)： 三元组的排名得分的倒数的平均值。
- Hits@n： 在前 n 个预测中正确预测的百分比。

具体应用

知识图谱补全： 利用已知的实体和关系来推断未知的实体关系对，从而补全知识图谱中的缺失信息。
问答系统： 提高问答系统中实体识别和关系推理的准确性。
推荐系统： 基于知识图谱的推荐模型，通过挖掘实体之间的关系，提升推荐结果的相关性和多样性。

2. FB15k-237 数据集

数据样本特征描述

样本形式： 与 WN18RR 类似，每个数据样本也由三元组 (h,r,t）表示。
数据规模：
- 关系（Relations）： 237 种
- 实体（Entities）： 14,541 个
- 训练集（Training set）： 271,115 个三元组
- 验证集（Validation set）： 17,535 个三元组
- 测试集（Test set）： 20,466 个三元组
数据样本示例：
- ("Paris", "is_capital_of", "France")
- ("Einstein", "discovered", "Theory of Relativity")

ML任务形式化

任务： 链接预测（Link Prediction）。
形式化表述：
- 与 WN18RR 类似，给定一个三元组 (h,r,?)或 (?,r,t)，预测未知的实体。
评价指标：
- Mean Reciprocal Rank (MRR)
- Hits@n

具体应用

关系推理： 帮助理解实体之间复杂的非对称关系，特别是对于大型知识库中的多样化关系。
语义搜索： 提高搜索引擎的语义理解能力，支持更准确和相关的搜索结果。
自然语言处理： 增强文本处理系统的语义分析能力，使其能够更好地理解和处理人类语言中的隐含关系。

3. Cross3domain 数据集

数据样本特征描述

样本形式： 同样使用三元组 (h,r,t)表示数据样本。
数据规模：
- 关系（Relations）： 445 种
- 实体（Entities）： 9,282 个
- 训练集（Training set）： 45,739 个三元组
- 验证集（Validation set）： 1,044 个三元组
- 测试集（Test set）： 1,249 个三元组
数据样本示例：
- ("Inception", "directed_by", "Christopher Nolan")
- ("The Beatles", "performed", "Hey Jude")

ML任务形式化

任务： 跨域链接预测（Cross-domain Link Prediction）。
形式化表述：
- 给定一个跨多个领域的三元组 (h,r,?)或 (?,r,t)，预测未知的实体。
评价指标：
- Mean Reciprocal Rank (MRR)
- Hits@n

具体应用

跨域知识图谱补全： 支持在不同领域的知识图谱中发现和推断未知的实体关系。
多领域推荐系统： 利用不同领域之间的关系，为用户提供更全面和多样化的推荐内容。
知识迁移学习： 在一个领域的知识图谱上训练的模型可以应用于另一个领域，实现知识的迁移和泛化。

最后

这三个数据集各自代表了知识图谱嵌入领域中的不同挑战和应用场景：

WN18RR 和 FB15k-237： 主要针对可逆关系问题，提供更具挑战性的任务以提高模型的泛化能力。
Cross3domain： 强调跨域的知识图谱嵌入，测试模型的跨域学习能力和知识迁移能力。

朋也透william

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
WN18RR、FB15k-237 和 Cross3domain 数据集

主要针对可逆关系问题，提供更具挑战性的任务以提高模型的泛化能力。强调跨域的知识图谱嵌入，测试模型的跨域学习能力和知识迁移能力。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。