1. WN18RR 数据集
数据样本特征描述
- 样本形式: 每个数据样本由三元组 (h,r,t)表示,其中:
- h是头实体(head entity)
- r是关系(relation)
- t是尾实体(tail entity)
- 数据规模:
- 关系(Relations): 11 种
- 实体(Entities): 40,943 个
- 训练集(Training set): 86,835 个三元组
- 验证集(Validation set): 3,034 个三元组
- 测试集(Test set): 3,134 个三元组
- 数据样本示例:
- ("Arthur", "is_related_to", "Camelot")
- ("Merlin", "has_ability", "Magic")
ML任务形式化
- 任务: 链接预测(Link Prediction),也称为实体预测(Entity Prediction)或实体排名(Entity Ranking)。
- 形式化表述:
- 给定一个三元组 (h,r,?)或 (?,r,t),预测未知的实体。具体而言:
- 头实体预测: 已知尾实体 t和关系 r,预测头实体 h。
- 尾实体预测: 已知头实体 h 和关系 r,预测尾实体 t。
- 给定一个三元组 (h,r,?)或 (?,r,t),预测未知的实体。具体而言:
- 评价指标:
- Mean Reciprocal Rank (MRR): 三元组的排名得分的倒数的平均值。
- Hits@n: 在前 n 个预测中正确预测的百分比。
具体应用
- 知识图谱补全: 利用已知的实体和关系来推断未知的实体关系对,从而补全知识图谱中的缺失信息。
- 问答系统: 提高问答系统中实体识别和关系推理的准确性。
- 推荐系统: 基于知识图谱的推荐模型,通过挖掘实体之间的关系,提升推荐结果的相关性和多样性。
2. FB15k-237 数据集
数据样本特征描述
- 样本形式: 与 WN18RR 类似,每个数据样本也由三元组 (h,r,t)表示。
- 数据规模:
- 关系(Relations): 237 种
- 实体(Entities): 14,541 个
- 训练集(Training set): 271,115 个三元组
- 验证集(Validation set): 17,535 个三元组
- 测试集(Test set): 20,466 个三元组
- 数据样本示例:
- ("Paris", "is_capital_of", "France")
- ("Einstein", "discovered", "Theory of Relativity")
ML任务形式化
- 任务: 链接预测(Link Prediction)。
- 形式化表述:
- 与 WN18RR 类似,给定一个三元组 (h,r,?)或 (?,r,t),预测未知的实体。
- 评价指标:
- Mean Reciprocal Rank (MRR)
- Hits@n
具体应用
- 关系推理: 帮助理解实体之间复杂的非对称关系,特别是对于大型知识库中的多样化关系。
- 语义搜索: 提高搜索引擎的语义理解能力,支持更准确和相关的搜索结果。
- 自然语言处理: 增强文本处理系统的语义分析能力,使其能够更好地理解和处理人类语言中的隐含关系。
3. Cross3domain 数据集
数据样本特征描述
- 样本形式: 同样使用三元组 (h,r,t)表示数据样本。
- 数据规模:
- 关系(Relations): 445 种
- 实体(Entities): 9,282 个
- 训练集(Training set): 45,739 个三元组
- 验证集(Validation set): 1,044 个三元组
- 测试集(Test set): 1,249 个三元组
- 数据样本示例:
- ("Inception", "directed_by", "Christopher Nolan")
- ("The Beatles", "performed", "Hey Jude")
ML任务形式化
- 任务: 跨域链接预测(Cross-domain Link Prediction)。
- 形式化表述:
- 给定一个跨多个领域的三元组 (h,r,?)或 (?,r,t),预测未知的实体。
- 评价指标:
- Mean Reciprocal Rank (MRR)
- Hits@n
具体应用
- 跨域知识图谱补全: 支持在不同领域的知识图谱中发现和推断未知的实体关系。
- 多领域推荐系统: 利用不同领域之间的关系,为用户提供更全面和多样化的推荐内容。
- 知识迁移学习: 在一个领域的知识图谱上训练的模型可以应用于另一个领域,实现知识的迁移和泛化。
最后
这三个数据集各自代表了知识图谱嵌入领域中的不同挑战和应用场景:
- WN18RR 和 FB15k-237: 主要针对可逆关系问题,提供更具挑战性的任务以提高模型的泛化能力。
- Cross3domain: 强调跨域的知识图谱嵌入,测试模型的跨域学习能力和知识迁移能力。