人工智能咨询培训老师叶梓 转载标明出处
尽管现有的基于描述的KGC方法已经利用预训练语言模型来学习实体和关系的文本表示,并取得了一定的成果,但这些方法的性能仍然受限于文本数据的质量和结构的不完整性。
为了克服这些限制,中国科学技术大学、腾讯YouTu Lab、香港城市大学和北京大学的研究人员共同提出了MPIKGC框架,该框架通过从多个角度查询大模型,以补偿上下文知识的不足,从而改善KGC。具体为MPIKGC利用LLMs的推理、解释和总结能力,分别扩展实体描述、理解关系和提取结构。
方法
知识图谱(KG)是一个异构的直接图数据结构,可以表示为带有描述的三元组集合,记为G=(h,r,t,d)⊆E×R×E×D),其中E代表实体集,R代表关系集,D为实体和关系的原始描述。三元组分类任务的目标是判断给定三元组的准确性。知识图谱补全(KGC)的链接预测任务是基于已知的文本和结构数据推断缺失的事实,这包括预测给定(h,r,?)时的尾实体,以及预测给定(?,r,t)时的头实体。为了实现这一目标,需要对所有实体进行排名,计算正负三元组的评分函数。基于描述的KGC模型利用预训练的语言模型来编码D并学习实体和关系的表示,而本文的目标是通过策划的提示查询大模型来增强KGC模型的文本和结构数据。
MPIKGC方法涉及通过改进实体、关系和结构数据来增强知识图谱补全,如图2所示。查询大模型的模板显示在表1中,其中用于查询大模型的提示遵循三个基本原则:清晰度、普适性和多样性。
从大模型中形式化实体的全面知识并非易事,因为很难确定大模型是否已经生成并包含了该实体的所有信息。同时,手动为每个实体设置许多查询指令既耗人力又常常导致过多的token输入到大模型中,从而增加了推理的计算负担。这样的长文本可能也不适合小规模大模型,并可能妨碍它们的性能。因此,提出了一种“思维链”(Chain-of-Thought, CoT)提示策略,使大模型能够将复杂查询分解成不同方向,并逐步生成描述,无需显式手动输入。它指导大模型隐式地查询相关信息,从而产生更有效和广泛的响应。如表1中MPIKGC-E的示例模板所示,请求大模型提供全面的实体描述,并在回答前提供理由,这作为答案的理由并提高了KGC模型的召回率。例如,图2展示了一个名人“Michael Bay”的示例,大模型生成了包含该个体各种职业和个人细节的描述,并为每个响应提供了理由,以增强大模型的陈述。
知识图中异构关系的存在在区分两个实体中起着至关重要的作用。然而,仅依赖关系名称可能导致模糊的解释,特别是对于复杂关系类别。此外,链接预测任务需要额外的反向预测,即在给定(?,r,t)时预测头实体。通常,多对一关系的反向预测性能明显低于正向预测。基于结构的KGC方法试图通过为每个正向关系添加反向关系来解决这个问题,从而翻倍了关系的可训练索引嵌入。相比之下,基于描述的KGC方法,如SimKGC,将字符串“reverse”附加到关系名称上。这种简单的方法并不能使模型完全理解关系的含义,导致性能不佳。因此,提出了三种提示策略,即全局、局部和反向,如图1中的MPIKGC-R所示。具体而言,MPIKGC-R全局旨在从整个知识图的角度推断关系的重要性,从而促进两个关系之间的更好关联。相比之下,MPIKGC-R局部旨在从三元组的角度推断关系的含义,从而在预测缺失事实时增强理解并建议可能的头/尾实体类型。例如,在查询“(头实体,发行区域,尾实体)”的含义时,大模型建议该关系可能与电影和区域有关。另外MPIKGC-R反向要求大模型将关系表示为动词,并将其转换为被动语态。例如,“produce”可以转换为“produced by”,从而增强理解并实现更好的反向预测。生成的文本附加到关系名称上,并根据每个KGC模型处理关系名称的工作流程进行处理。
KGC模型能够从训练三元组中学习结构模式,并推广到测试三元组中缺失的链接。例如,具有制片人或导演职业的个人实体可能与电影实体相关。然而,从图结构中学习模式受到稀疏链接的限制,特别是对于长尾实体。为了解决这个问题,提出了MPIKGC-S,它查询大模型生成额外的结构信息以丰富知识图。为了将大模型的生成型文本转换为基于图的数据,利用大模型的总结能力从描述中提取相关关键词,然后根据匹配关键词的数量计算实体之间的匹配得分:
其中k_h和k_t分别表示头/尾实体的关键词m是k_h和k_t的交集。在对匹配得分排序后,选择前k对,并创建了形式为(head,SameAs,tail)的新三元组,然后将其附加到训练集中。除了这些基于相似度的三元组外,还考虑为每个实体添加自环三元组与关系“SameAs”:(head,SameAs,head)。这样做的动机是增强KGC模型对“SameAs”关系的学习。这些额外的三元组构建了相关实体之间的关联,并允许在KGC模型中形成新的结构模式。例如,通过在“Ian Bryce”和“Michael Bay”之间添加“SameAs”关系,“Ian Bryce”可以明确地与“Transformers: Dark of the Moon”实体联系起来,从而为KGC模型的学习过程提供了宝贵的补充。
表2展示了用于本研究的知识图统计信息,包括实体数量、关系数量、训练集、验证集和测试集的大小。
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。
评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。
实验
数据集:实验在两个广泛使用的数据集上进行链接预测实验,分别是FB15k237和WN18RR,以及在FB13和WN11上进行三元组分类实验。
指标:使用以下指标评估KGC模型的性能:链接预测任务的平均排名(MR)、平均倒数排名(MRR)和Hits@n(H@n, n={1,3,10}),以及三元组分类任务的准确度。MR值越低表示性能越好,其他指标值越高表示性能越好。
基线:使用四种基于描述的KGC模型作为基线:KG-BERT、SimKGC、LMKE和CSProm-KG。选择基线的标准基于最新性能、模型的新颖性和实验时间成本。此外,还与包括TransE、DistMult、RotatE、ConvE、ConvKB和ATTH在内的传统基于结构的KGC模型进行了比较。
后端:主要使用Llama-2、ChatGLM2-6B、ChatGPT和GPT4作为文本生成的后端。在所有LLMs中,将温度设置为0.2,最大长度设置为256,并使用单精度浮点(FP32)进行推理。使用BERT(bert-based-uncased)作为所有基于描述的KGC模型生成文本的编码后端。
设置:为了确保公平比较,使用开源代码复现了每种方法,并使用“bert-based-uncased”版本作为所有模型的后端。为了考虑增强KGs中实体和关系的文本量增加,确保不同的增强实验具有相同的最大token长度和数据处理流程。此外,还包括了一些基线未报告的平均排名结果。其他参数设置遵循原始论文中提供的默认参数。
模型 FB15k237 WN18RR
MR↓ MRR↑ H@1↑ H@3↑ H@10↑ MR↓ MRR↑ H@1↑ H@3↑ H@10↑
结构化方法
- TransE: 323 27.9 19.8 37.6 44.1 2300 24.3 4.3 44.1 53.2
- DistMult: 512 28.1 19.9 30.1 44.6 7000 44.4 41.2 47.0 50.4
- ConvE: 245 31.2 22.5 34.1 49.7 4464 45.6 41.9 47.0 53.1
- RotatE: 177 33.8 24.1 37.5 53.3 3340 47.6 42.8 49.2 57.1
- ATTH: - 34.8 25.2 38.4 54.0 - 48.6 44.3 49.9 57.3
描述基础方法
-
CSProm-KG: 188 35.23 26.05 38.72 53.57 545 55.10 50.14 57.04 64.41
-
+MPIKGC-E: 195 35.51 26.38 38.96 53.74 1244 53.80 49.19 55.65 62.81
-
+MPIKGC-R: 192 35.38 26.29 38.83 53.50 838 53.90 49.35 55.74 62.36
-
+MPIKGC-S: 179 35.95 26.71 39.52 54.30 528 54.89 49.65 56.75 65.24
-
LMKE: 135 30.31 21.49 33.02 48.07 54 55.78 42.91 64.61 79.28
-
+MPIKGC-E: 138 30.83 21.89 33.67 48.75 57 56.35 43.27 65.54 79.53
-
+MPIKGC-R: 145 30.99 22.21 33.70 48.83 59 57.60 45.10 65.95 79.35
-
+MPIKGC-S: 135 30.68 21.67 33.35 48.91 70 50.71 36.91 59.65 76.13
-
SimKGC: 146 32.66 24.13 35.42 49.65 148 65.64 57.08 71.20 80.33
-
+MPIKGC-E: 143 33.01 24.37 35.80 50.29 124 65.64 57.10 71.09 80.41
-
+MPIKGC-R: 156 31.05 22.63 33.62 47.65 129 66.41 57.90 72.08 81.47
-
+MPIKGC-S: 143 33.22 24.49 36.26 50.94 170 61.48 52.81 66.77 76.94
表3:链接预测任务的实验结果,每个块中最好的结果用粗体表示。↑:数值越高越好。↓:数值越低越好。如表3所示,ATTH在所有四个指标上都优于其他结构化方法。此外,可以观察到,在大多数情况下,结构化方法在FB15k237上表现更好,该数据集包含一般性世界事实(例如演员实体),而描述基础方法在WN18RR上表现更好,这是WordNet的一个子集,具有丰富的语言知识,适合PLMs。CSProm-KG提出关注文本和结构信息,因此在FB15k237上与LMKE和SimKGC相比表现出色。然而,在WN18RR上表现要差得多。特别是结构提取方法MPIKGC-S,改进了CSProm-KG的结构化方面,并在FB15k237上实现了所有其他基线相比最高的性能,甚至超过了结构化方法。然而,FB15k237和WN18RR数据集之间的差异确实值得注意。FB15k237在MPIKGC-S上表现出特别好的结果,这可能归因于FB15k237有15K实体和237种关系,而WN18RR有40K实体但只有11种关系。向WN18RR添加额外的关系可能会过度改变KG的稀疏性和三元组分布,导致性能下降。
另一方面,提出的理解关系的方法(MPIKGC-R)在WN18RR上与LMKE相比在MRR、Hits@1和Hits@3指标上展示了1%-2%的改进,而MPIKGC-E在Hits@10得分上达到了79.53%。在WN18RR上应用MPIKGC-R方法时也观察到了同样的改进趋势。原因是这两种方法都侧重于文本,并有能力学习丰富的增强数据。然而,MPIKGC-S在WN18RR上的LMKE和SimKGC上没有表现出改进。推测这可能是因为关系类型的数量少,添加新关系时可能会误导模型。此外,为FB15k237并入提取的结构数据取得了更好的性能。
实验还评估了所提出的方法在三元组分类任务上的性能,这是一项二元分类任务,用于确定给定三元组的正确性。基于表4中呈现的结果,结构化方法在FB13数据集上表现良好,而在WN11数据集上与基于描述的方法相比显著表现不佳。这一结果与链接预测任务的发现一致,可以归因于Freebase和WordNet之间的差异。
另一方面,结果表明扩展描述(MPIKGC-E)是提高KG-BERT性能的有前途的技术,因为它在FB13上产生了1.55%更高的准确度得分,在WN11上产生了0.79%更高的准确度得分。该方法还在LMKE上表现出微小的增强,并在FB13上实现了91.81%的最高准确度得分。总体结果表明MPIKGC框架的普适性,能够提升各种KGC模型在链接预测和三元组分类任务中的性能。
实验还评估了在提取结构数据时超参数top k的重要性。在FB15k237上呈现了获得的结果,并与有无自环的设置进行了比较。增加k的值意味着将更多的三元组添加到训练集中。例如,当k设置为1时,通过计算匹配得分来确定每个实体的最佳匹配实体。此外,自环设置涉及包含实体本身的三元组。如图3所示,随着k的增加,两种设置的所有三个指标的曲线均呈上升趋势,这表明结构的增强视角确实提高了KGC在FB15k237数据集上的性能。此外,可以看到自环设置始终优于无自环设置。这一观察表明,增强KGC对“SameAs”关系的学习是有希望的提高性能策略。然而,当k达到4或5时,性能开始下降。这种趋势表明训练集包含过多的无关三元组,这可能会对其他数据的学习产生负面影响。
消融分析呈现了描述扩展(MPIKGC-E)、关系理解(MPIKGC-R)和结构提取(MPIKGC-S)的性能分析,以及将它们组合在一起时的性能。例如,MPIKGC-E&R表示MPIKGC-E和MPIKGC-R的组合,而其余方法遵循相同的命名约定。在FB15k237数据集上使用Llama-2生成的文本进行了消融实验,以LMKE作为基线。结果表明,在从实体、关系和结构的角度增强后,KGC模型在所有四个指标上都实现了近0.5%的改进。此外,MPIKGC-E&R将生成的实体描述与关系描述文本结合起来,比单独使用任一方法略有改进,表明这两种方法的兼容性。此外,MPIKGC-E&S在H@10得分上达到了最高,而MPIKGC-R&S在MRR和H@1上表现最佳。MPIKGC-E&R&S在H@3上得分最高。加入结构提取方法进一步提高了性能,大多数指标提高了近0.5%。例如,MPIKGC-E&R&S得到了49.28%的H@10得分,比MPIKGC-E&R高出0.51%。添加关系文本‘-R’时也可以看到同样的现象。综合发现表明,多样化的增强方法是兼容的,并且可以集成以提升整体性能。
实验还评估了WN18RR数据集上各种消融设置下关系理解的性能,如表6所示。具体来说,MPIKGC-R G&L表示全局和局部描述的组合,它们使用单独的token‘[SEP]’连接。同时,其他方法遵循相同的规则。结果表明,MPIKGC-R Global在所有四个指标上都比基线SimKGC高出近1%。此外,MPIKGC-R Local实现了最高的H@10得分81.57%,但MRR和H@1得分最低。相反,MPIKGC-R Reverse在MRR和H@1上取得了超过1%的改进,但在H@10上表现较差。这些结果表明,MPIKGC-R Local优先考虑正确实体的前10个召回率,而MPIKGC-R Reverse专注于提高最佳实体(即,top-1)的性能。在结合这三种策略后,可以观察到MPIKGC-R G&L在MRR和H@1上取得了显著改进,表明全局和局部提示具有互补效果。然而,其他组合策略表现不佳。因此,认为加入太多关系描述可能会增加学习关系含义的难度。
最后探讨了使用不同的大模型来增强FB15k237上的KGC。由于在四个基准上查询每个实体和关键词的时间较长且成本较高,因此将分析限制在仅对MPIKGC-R应用ChatGPT和GPT4。如表7所示,结果表明本框架在所有三个角度上一致地改进了基于LMKE的KGC,使用了各种大模型生成的文本。这表明设计提示的有效性,这些提示对大规模(ChatGPT和GPT4)和小规模(Llama-2和ChatGLM2)大模型都是通用的。ChatGLM2为MPIKGC-E和MPIKGC-S产生了优越的结果,与Llama-2相比,表明ChatGLM2在推理和总结能力方面的优势。然而,Llama-2和ChatGPT在理解关系方面优于ChatGLM2。另一方面,可以看到将GPT4应用于MPIKGC-R在所有指标上都带来了显著改进,这归因于更大的模型规模,有助于更全面地理解KG关系。