CodeKGC: Code Language Model for Generative Knowledge Graph Construction 论文笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_44503932/article/details/138913324

中文题目：CodeKGC: 基于代码语言模型的生成式知识图谱构建方法
论文地址：https://dl.acm.org/doi/10.1145/3641850
github地址：https://github.com/zjunlp/DeepKE/tree/main/example/llm/CodeKGC
领域：大语言模型，知识图谱构建，代码语言模型
发表时间：2023
出处：ACM Transactions on Asian and Low-Resource Language Information Processing

摘要

现有的生成式知识图谱构建方法通常无法通过简单地将自然语言扁平化为序列化文本或规范语言来捕获结构化知识。然而，在代码等结构化数据上训练的大型生成语言模型在结构预测和推理任务中表现出了令人印象深刻的自然语言理解能力。直觉上，我们用代码语言模型来处理生成知识图谱的构建任务：给定一个代码格式的自然语言输入，目标是生成三元组，这些三元组可以表示为代码完成任务。

具体来说，我们开发了模式感知提示（schema-aware prompts），有效地利用了知识图谱中的语义结构。由于代码本身具有结构，如类和函数定义，它是先验语义结构知识的有用模型。此外，我们采用了一种理据增强的生成方法来提高性能。推理器提供中间步骤，从而提高知识提取能力。实验结果表明，本文方法在基准数据集上可以获得更好的性能。

1 引言

知识图谱( Knowledge Graphs，KGs )通常由连接这些实体的节点(实体)和边(关系)组成。高质量的KGs主要依赖于人工干预结构化或半结构化数据[ 33 ]。因此，知识图谱构建( Knowledge Graph Construction，KGC )被提出来作为一种用新的知识组件(如实体和关系)填充知识图谱的方法。现有的技术，如[ 30、38]，通过使用系统地集成命名实体识别[ 12 ]、实体链接[ 31 ]和关系抽取[ 37 ]的管道，已经取得了相当大的成功。然而，这些方法存在一定的局限性，包括误差传播和重叠问题，这会对知识图谱构建的质量和精度产生不利影响。

为了解决误差累积和重叠问题，通常建议设计端到端的方法。将知识图谱构建作为端到端的自然语言生成是一种越来越有前途的技术，已经取得了经验上的成功[ 14 ]。该方法将关系结构转换为序列化文本，并使用具有表达能力的黑盒神经网络，如预训练的语言模型( LMs ) [ 11、21]，来预测编码关系结构的扁平化文本。生成式语言模型已经在实体抽取[ 32 ]、实体打字[ 35 ]、关系抽取[ 10 ]、三元组抽取[ 34 ]、事件抽取[ 15 ]等多种知识图谱构建任务中证明了其有效性。

尽管取得了经验上的成功，但期望神经网络能够轻松地处理复杂的结构内依赖是不切实际的，特别是对于事实复杂重叠的场景。语言模型很难生成这些非自然的输出，因为这类文本的语法和结构不同于训练数据中的自由形式文本。此外，生成将相邻节点(重叠事实)推得更远的结构化句子是困难的，因为语义相关的单词经常发生在彼此接近的地方。以图1为例，两个实体之间的关系可以跨越多个单词，将这些结构化信息扁平化为字符串可能导致生成性能较差。近年来，代码大语言模型( Code-LLMs ) [ 2 ]的发展展示了CodeLLMs在复杂推理[ 3 ]、结构化常识推理[ 18 ]和结构预测[ 26 ]任务中的应用潜力。我们的主要见解是，代码的语言模型可能比自然语言更好地建模结构。直观上，我们将知识图谱构建建模为代码生成任务，通过对结构的显式建模来扩充预训练的语言模型。

在这里插入图片描述

因此，我们提出了一种模式感知的代码提示和逻辑增强的知识图谱构建方法（Code prompt and rationale-enhanced Knowledge Graph Construction）CodeKGC。受到Code - LLMs强大的结构和推理能力的启发，我们将自然语言转换为代码格式，而不是将其表示为胖字符串。我们设计结构代码提示，对模式信息进行编码以保持内在语义结构。通过使用基类定义，我们可以有效地建模KGs中预定义的实体和关系模式。我们还提出了一种理据增强的生成方法用于生成模型内部的实体和关系，有助于提高知识抽取的能力。在生成过程中，使用一个合理增强的模块来激发语言模型的力量。为了证明我们方法的有效性，我们将CodeKGC应用于三个数据集：ADE，CONLL04和SciERC。我们评估了我们提出的模型在零样本和少样本情况下的性能

个人总结问题背景如下：

在这里插入图片描述

1.1 Contribution

本文的贡献可以总结为以下几个方面：

首先，本文提出了CodeKGC方法，该方法将自然语言重新构造成代码格式，用于生成知识图谱的构建。
其次，通过对代码定义的有效建模，设计有效的代码提示对KGs中的模式进行编码。利用理据增强生成的建议来提高知识抽取的能力。
最后，我们进行了大量的实验来评估所提出模型的性能。我们在三个数据集上评估了我们提出的方法，并证明了CodeKGC在各种评估设置中优于所有基线模型，特别是在解决重叠问题等复杂语言建模问题方面。

1.2 Outline of the Article

本文余下部分的结构安排如下。在第二节中，我们介绍了知识图谱构建的相关工作，并详细描述了代码大语言模型和重结构化学习。在第3节中，我们首先概述了我们设计的CodeKGC，然后说明了模式感知的代码提示设计和推理增强生成。第四部分，我们在三个知识图谱构建数据集上进行了实验，实验结果证明了我们提出的方法的有效性。此外，我们提供了一个消融研究来分析我们提出的模型。在第5节中，我们讨论了代码语言模型在结构和推理任务中具有潜力的潜在原因。在第6节中，我们总结了本文并讨论了未来的工作。

2 相关工作

2.1 知识图谱构建

知识图谱构建任务主要关注从非结构化文本中提取结构化信息。具体来说，从文本中抽取关系三元组对构建大规模知识图谱起着至关重要的作用。[ 30 ]重新审视了关系三元组抽取任务，并提出了一种新的级联二值标记框架( CasRel )。文献[ 22 ]提出了一种基于双向抽取框架的方法，基于两个互补方向抽取的实体对抽取三元组。对于零样本关系三元组抽取，文献[ 4 ]提出通过促使语言模型生成结构化文本来合成关系实例。文献[ 16 ]提出了一个统一的文本到结构生成框架UIE可以对不同的IE任务进行通用建模。文献[ 30 ]重新审视了关系三元组抽取的任务，并引入了一个新颖的级联二进制标注框架( CasRel )，该框架源于一个有根据的问题描述。文献[ 22 ]提出了一种基于双向抽取框架的方法，通过利用从两个互补方向获得的实体对来抽取三元组。对于零样本关系三元组抽取，文献[ 4 ]建议通过提示预训练的语言模型来合成关系实例。文献[ 16 ]提出了一种统一的文本到结构生成框架UIE，能够通用地建模各种IE任务。然而，大多数主流方法以序列化序列作为输入，忽略了语言的自然结构格式和语义知识。据我们所知，我们提出的方法是第一个为知识图谱构建任务重构代码数据的方法。

2.2 代码大型语言模型

包括[ 6,8,27]在内的代码语言模型展示了它们在生成代码方面的非凡能力，现在可以处理基本的编程任务。文献[ 2 ]提出了一种使用可公开访问的GitHub代码优化的GPT语言模型，研究重点是其编写Python代码的能力。[ 13 ]介绍了一个为代码生成而设计的系统，它可以为需要更复杂推理的挑战生成创新的解决方案。近年来，随着代码语言模型的出现，语言模型与代码的结合被证明可以有效地处理特定的任务[ 20 ]。文献[ 18 ]将结构化常识推理任务定义为代码生成任务，证明了预训练的基于代码的LMs相比自然语言LMs表现出优越的结构化常识推理能力。[ 26 ]利用文本到结构的翻译能力来解决NLP领域内的结构化预测任务。文献[ 7 ]介绍了一种称为PAL的新技术，它使用大语言模型来解释自然语言问题，并作为中间推理步骤来创建程序。但是，求解阶段被委托给一个程序化的运行时，如Python解释器。文献[ 3 ]提出了思维程序( Po T )，将计算与推理相分离。然而，对于知识图谱构建任务，如何利用代码语言对结构信息进行建模，尚未有研究。

2.3 再结构化学习

在再结构化学习范式[ 36 ]中，强调数据的重要性，将模型预训练和对下游任务的微调视为数据存储和检索的过程。[ 25 ]提出了一种通过在任务无关的语料上预训练语言模型从文本中生成结构来增强语言模型结构理解能力的方法。文献[ 19 ]提出了一种新颖的框架来处理各种结构化预测语言任务，如联合实体和关系抽取、嵌套命名实体识别等。文献[ 24 ]表明，预测关系信息和输入文本之间的对应关系的简单预训练任务是生成任务特定输出的有效方法。自然语言到结构化语言的转换也被证明是通用信息抽取的有效方法[ 16 ]。我们的工作与以前的重结构学习方法的不同之处在于，我们利用自然结构化和语义丰富的代码语言来增强结构提示的学习。

3 Codekgc：生成知识图谱构建的代码语言模型

我们提出了一种新的方法CodeKGC，它将自然语言重新构造成代码语言，用于生成知识图谱的构建。如图2所示，CodeKGC组成两个主要组成部分：图式感知的提示构建( 3.1节)，理据增强的生成( 3.2节)。

在这里插入图片描述

提出的CodeKGC与代码语言概述。将原始自然语言转换成代码格式，然后输入到代码语言模型中，代码语言模型由指定的任务提示引导。我们使用模式感知提示来保留知识图谱中的关系、属性和约束。受文献[ 29 ]的启发，CodeKGC在语境学习样本中还使用了一个可选的推理增强模块（Rationales）作为中间推理步骤。

3.1 图式感知提示建构（Schema-aware Prompt Construction）

我们将知识图谱构建任务框定为代码生成问题。此类任务的每个训练实例为( T、G)形式，其中T为文本输入，G为要生成的知识图谱。需要注意的是，G是由实体及其连接关系组成的三元组。由于在自由形式的自然语言文本上训练的LM很可能无法捕获关系结构的拓扑结构，如图1所示，我们方法的关键思想是将一组输出三元组(图G )转换为用Python编写的语义等价的程序语言(图Gc )。使用符合Python语法结构的预定义脚本，将原始样本( T、G)转换为代码格式( Tc , Gc)。我们提出的CodeKGC将重新构造的语言输入到代码语言模型中。在进行推断时，我们最终将其转换回图G。

在这里插入图片描述

具体来说，我们将句子对转换成一系列预定义的类，并构造一个包含描述任务的Docstring的任务提示。在图2的右下角可以找到一个任务提示的例子。我们定义了一个全新的类Extract来完成对Docstring的抽取过程。这里构建的不完全任务提示用于指导代码语言模型的输出。通过保留语法和结构特征的代码格式的重新结构化，代码语言模型倾向于生成更精确的关系和实体。

在这里插入图片描述

KG中的模式描述了数据的结构，包括构成图的实体、关系、属性和约束。我们可以通过Python类定义的继承来整合模式信息。如图2所示，我们定义了基类Entity和Relation，它们描述了用于构建知识图谱的关系和实体的一般定义。例如，表示属于类型" person "的实体，即Person类应该从基本实体类继承。我们进一步定义Triple类来表示文本输入中包含的三元组。三元组由头尾实体对及其对应关系组成。每个三元组将表示为它们对应的实体和关系类型类的实例。例如，如果存在一个三元组(伦敦, U K)，我们用我们设计的代码格式Triple( LOC ( ‘伦敦’ ))，Rel( ‘位于’)，LOC( ‘伦敦’) )来表示它。值得注意的是，任务提示符Extract的输入扩展包括一个Triple实例列表。通过这种方式，我们可以自然地对语言中复杂的结构信息进行建模，例如嵌套实体或关系。即使对于实体类型之间的约束，我们也可以定义特定的实例化三元组来对这些信息进行建模。

3.2 理据增强生成

为了在一个看不见的例子上执行任务，我们给代码LM一些由任务提示符组成的完整的基本事实关系三元组的例子。我们从包含所有n种关系类型的数据集中选择k个样本，并将其与任务提示串接进行n - shot学习。需要注意的是，发现新内容的通用能力，如新实体和关系的类定义，可以帮助生成新实例，从而提高知识图谱构建性能。

受思维链[ 29 ]的启发，我们提出了一种可选的理据增强生成方法来提高底层推理能力。对于正常提示，给定文本代码输入Tc、提示P和概率模型pLM，我们的目标是最大化Gc为的可能性：我们设计了一个具体的理据来增强语言模型的推理能力。

在这里插入图片描述

式中：ri为| R |推理总步数的一步。具体来说，我们将复杂的知识图谱推理任务分解为多个步骤，如图3所示。对于知识图谱的构建，关键点在于识别关系并提取其对应的实体。因此，我们设计的推理链包括三个步骤：关系识别、实体抽取和最终的知识图谱构建。依靠我们设计的原理，该模型可以利用推理链更准确地完成知识图谱构建的任务。

在这里插入图片描述

有理据的代码生成。我们尝试将知识图谱构建任务分解为多个中间步骤。Code KGC利用思维链等逻辑推理链[ 29 ]，专门解决复杂结构模式。

在这里插入图片描述

4 实验

通过回答以下研究问题，我们进行了大量的实验来评估CodeKGC的性能：

RQ1：我们的CodeKGC在与知识图谱构建基线竞争时的表现如何?
RQ2：我们的方法中的关键模块对整体性能的贡献如何?
RQ3：我们提出的CodeKGC模型在处理重叠或复杂模式时的效果如何?
RQ4：较小的代码语言模型如何影响CodeKGC的性能

4.1 实验设置

**数据集。**我们在3个流行的基准数据集ADE [ 9 ]、CoNLL04 [ 23 ]和SciERC [ 17 ]上评估了所提出的CodeKGC。

ADE [ 9 ]是关注药品不良事件识别和提取的文本集合。具有1个关系(不良反应)和2个实体类型(疾病、药物)。我们将原始数据集拆分为训练集、有效集和测试集，然后在小样本条件下从训练集中选取部分样本作为提示样本。受限于API调用的时间约束，我们从测试数据集中随机抽取300个样本进行评估。
CoNLL04 [ 23 ]数据集是评估信息抽取和关系抽取任务的广泛使用的基准。关系(如工作、生活等)有4个，实体类型(人、组织、生活在)有3个。在小样本情况下，从训练数据集中随机选取少量样本作为示例。
SciERC [ 17 ]代表了一个为多任务框架设计的数据集，重点关注科学论文中发现的实体、关系和共指聚类的识别和分类。它由7个关系(如上下位关系,用于)和6个实体类型(如方法与任务)。我们还从训练数据集中随机选取若干样本，使用整个测试数据集进行评估。

我们较小的预训练模型的数据集统计。

在这里插入图片描述

比较基线。对于RQ1、RQ2和RQ3，我们使用大代码语言模型( GPT - 3.5系列) text - davinci技术- 002和text - davinci技术- 003作为主干，两者分别在代码和文本语料上进行训练。由于Code - davinci技术- 002的使用限制( 2 )，我们只进行了烧蚀实验，以比较不同模型的CodeKGC。为了公平比较，我们使用Vanilla Prompt作为我们的主要基线，并在零样本和少样本两种情况下评估我们提出的CodeKGC。我们作为主干使用的代码模型的解释如下所示。

Code-davinci技术-002 (也称为Codex)是一个在文本和代码语料上都训练过的模型，尤其擅长将自然语言翻译成代码。·
Text - davinci技术- 002是基于Codex的有监督的指令调整模型。但是，它可能会由于指令调整策略而丧失部分代码理解能力。
text - davinci技术- 003是最有能力的GPT - 3模型，它能够处理复杂的指令并生成更长形式的内容。Text - davinci技术- 003的训练语料中也包含大量的代码数据。

对于RQ4，我们预先训练一个由T5 [ 21 ]和CodeT5 [ 27 ]初始化的较小的代码语言模型，然后评估我们的方法的性能。我们在这里预训练的小型预训练模型只有7.7亿个参数，远小于GPT 3.5系列模型(超过100亿个参数)。我们将T - REx [ 5 ]、TEKGEN [ 1 ]和KELM [ 1 ]的语料重组为代码格式( Python )，构建了一个全新的数据集用于预训练。具体数据见表1

评价方案。我们计算了知识图谱构建任务的关系严格微观F1分数。需要注意的是，只有当三元组中的头尾实体和关系完全匹配时，三元组才被认为是正确的。虽然我们的模型可以预测相应类型的实体，但是在计算F1分数时并没有包括这些类型。

参数设置。对于RQ1、RQ2和RQ3，利用OpenAI提供的API接口，将温度设置为0.5，max _ tokens设置为256或512。当出现’ ’ '、class或#等特殊模式时，停止代码生成。对于RQ4，我们使用Pytorch 1.13 with deepspeed3在4个NVIDIA Tesla V100 GPU上进行了三天的实验。在小语言模型的微调阶段，所有的优化都在Adam W优化器上进行。

CodeKGC在零样本和少样本设置(严格微F1关系)下的性能。粗体数字表示最佳结果，带下划线的数字表示次优性能。我们还报告了在相同的骨干模型上的评分改善结果(↑)。对于零样本集，我们用它们的同义词替换1 -样本关系。对于小样本设定，我们选择3样本关系设定作为演示。

4.2 结果与分析

主要结果。下表给出了CodeKGC在零样本和少样本情况下的性能。在零样本设置中，我们为每个关系选择一个样本，并用它们的同义词替换关系。实验结果表明，我们提出的CodeKGC在三个数据集上都优于传统的文本提示。我们注意到，特别是在CONLL04 (↑10.7和↑17.0)中，我们的方法表现出了显著的得分提升。我们也注意到CodeKGC在ADE数据集上的性能有限。这是因为ADE数据集是医学语料库，缩写词数量较多，导致抽取难度较大。因此，在零样本设置下，CodeKGC的性能与Vanilla Prompt相当。

在这里插入图片描述

在少样本学习设定下，我们选择3样本关系设定作为示范。我们发现我们提出的方法与Vanilla Prompt相比获得了优异的性能。值得注意的是，CodeKGC在使用text - davinci技术- 003时更有效。具体而言，CodeKGC在ADE、CONLL04和SciERC数据集上分别取得↑5.7、↑6.0和↑4.9的评分提升，这可能是由于Text - davinci技术- 003在微调过程中使用了更高质量的代码数据。尽管textdavinci技术- 003本身的性能优于text - davinci技术- 002，但CodeKGC的Text - davinci技术- 002仍然与Vanilla Prompt的Text - davinci技术- 003具有竞争力。例如，在ADE数据集上，即使是Textdavinci技术- 002的CodeKGC也比Text - davinci技术- 003的Vanilla Prompt表现更好。这表明我们设计的代码格式化提示在使语言模型能够高效地从文本中提取知识图谱构建所需的实体和关系方面的有效性。

为了进一步考察语境样本数量的影响，我们在ADE数据集上使用{ 1，5，10，15 }的不同设置来评估CodeKGC和Vanilla Prompt的性能。除了text - davinci技术- 002和text - davinci技术- 003之外，我们还选取了另一个代码模型( Codex )作为主干，进一步考察Code大模型的影响。从图4可以看出，Code KGC比Vanilla Prompt获得了更好的小样本性能。我们观察到，随着语境样本数量的增加，我们的CodeKGC始终优于基线，所有模型( text - davinci技术- 002、text - davinci技术- 003和code - davinci技术- 002)，说明代码语言确实具有较好的建模结构和解决RQ1的能力。

在这里插入图片描述

上图中的另一个重要发现是，当应用相同的CodeKGC，以text - davinci技术- 002和code - davinci技术- 002为主干时，code - davinci技术- 002的性能优于text - davinci技术- 002。这可能是因为code - davinci技术- 002在代码生成和代码补全等与代码相关的任务上具有更强的性能。因此，代码- davinci技术- 002在信息抽取任务中表现出更多的优势。

推理增强生成的影响

为了解决Q2问题，我们进行了实验来研究推理增强生成的影响。我们选择数据集CoNLL04，该数据集由多个关系和实体组成。图5在CoNLL04数据集上的结果表明，理论基础有助于提高CodeKGC在Text - davinci技术- 002和Text - davinci技术- 003上的性能，在f1 score上分别提高了0.5和1.9。在知识图谱构建任务中融入理据是有益的，因为理据有助于引导模型在生成过程中关注输入文本的特定方面，从而导致更有效的学习和提高对图中复杂关系的理解。需要指出的是，我们在实验过程中也发现了理论基础的局限性。当样本量过小时，冗长的提示会对模型产生负面影响。

在这里插入图片描述

推理增强生成在CoNLL04数据集中的影响。w / o是在没有理性的情况下提示的，我们设计的推理增强生成明显提高了我们提出的方法的性能。

在这里插入图片描述

Code KGC和Vanilla Prompt在硬例(严格微F1关系)中的小样本预测。编码为davinci技术- 002的CodeKGC正确预测了重叠三元组和长程三元组，而Vanilla Prompt预测失败。

高难度数据处理结果。

我们从ADE数据集中抽取重叠三元组(困难样本)，并以text - davinci技术- 002和code - davinci技术- 002为骨架测试CodeKGC和Vanilla Prompt的性能。从图6中可以看出，CodeKGC在代码为davinci技术- 002时取得了比Vanilla Prompt在文本为davinci技术- 002时更好的效果。说明CodeKGC能够提升生成重叠三元组的性能。如图7所示，我们发现CodeKGC在处理长距离依赖和重叠问题方面具有强大的能力。例如，对于两个重叠三元组(图7中实体性脑损伤和CMV)都嵌套的复杂情况，我们的方法可以准确地提取关系和实体，这在地址Q3上表现出了优越性。另外值得注意的是，扁平字符串的香草自然语言生成模型倾向于将相邻节点推得更远，而代码语言则保留了结构信息，从而提高了模型的性能

在这里插入图片描述

Code KGC和Vanilla Prompt的案例。编码为davinci技术~ 002的CodeKGC正确预测了重叠三元组和长程三元组，而Vanilla提示失败。

较小代码语言模型分析

为了解决Q4问题，我们首先使用我们重新构造的代码语料库预训练了两个模型(用T5和CodeT5初始化)。然后我们使用四个预训练的模型(重新构造T5和CodeT5 ,而不是预训练的T5和CodeT5)在ADE数据集上微调我们的CodeKGC。

T5 [ 21 ]是目前最先进的自然语言处理模型，采用统一的文本到文本框架，使其可以针对各种NLP任务进行微调。CodeT5 [ 27 ]是T5模型的扩展，专门为代码相关任务和理解编程语言量身定制。我们使用T5和CodeT5是因为它们在生成任务中的有效性。

从图8中可以看出，当CodeT5和T5都没有经过进一步的预训练时，CodeT5的表现明显更好，这是因为CodeT5内在地理解了结构化的代码知识。然而，我们注意到使用重新结构化的T5进行预训练比使用重新结构化的CodeT5表现更好，这表明对于知识图谱构建模型理解文本至关重要

在这里插入图片描述

从上图中可以看出，当CodeT5和T5都没有经过进一步的预训练时，CodeT5的表现明显更好，这是因为CodeT5内在地理解结构化的代码知识。然而，我们注意到使用重新结构化的T5进行预训练比使用重新结构化的CodeT5表现更好，这表明知识图谱构建模型理解文本语义至关重要。此外，我们还测试了SOTA模型UIE [ 16 ]的性能，CodeKGC的表现略差于UIE。我们认为，对于作为代码生成的知识图谱构建，模型应具备语义理解和代码生成的能力。我们由于参数空间有限，不能同时拥有鱼和熊掌。这种强大的能力可能由大型LM产生[ 28 ]。

5 讨论

数据结构预测的格式。知识图谱构建( Knowledge Graph Construction，KGC )从根本上说是结构预测任务，数据格式是必不可少的。现有的许多方法要么以扁平化的方式处理自然语言，要么通过约束解码技术挖掘结构信息。然而，这种结构信息的显式建模并不能有效地解决KGC问题。我们发现，除了自然语言，代码语言本身也携带着结构信息。尽管一些工作(如UIE 和DeepStruct 等)已经尝试通过设计特定的结构语言来处理结构信息，但是代码语言在实际中更加普遍和通用。最后，我们观察到，随着ChatGPT的成功，丰富的指令调谐数据变得可用，使得大型语言模型能够更好地理解结构信息。指令调优（Instruction tuning）已经证明交互式自然语言是一种更有效的数据格式，这也是我们目前工作的一个局限性。

代码语言vs .自然语言。代码语言和自然语言是两种截然不同的语言形式。代码语言(编程语言)作为人与机器之间交流的手段，具有严格的语法和语法规则。另一方面，自然语言主要是人类可读的语言，用于表达广泛的思想、情感和意图。这两种语言都可以传达语义，但代码语言的半结构化特性使其不仅可以包含自然语言的元素，还可以作为更好地建模结构化信息的桥梁。此外，作为可编程和可执行的语言，代码语言具有更大的逻辑一致性，为某些推理任务提供了天然的优势。因此，对语码语言的研究具有重要的学术意义和科学价值。

6 结论与未来工作

在本文中，我们提出了一种新的方法CodeKGC，它利用代码语言模型来构建生成知识图谱。通过将自然语言转换为代码在格式上，我们的方法有效地编码了知识图谱中实体和关系的模式结构。我们还提出了理据增强的生成方法，该方法有助于语言模型内部知识的解耦。大量实验结果表明，本文提出的模型在知识图谱构建任务上能够获得更好的性能。

在未来的工作中，我们计划从以下几个方向进一步探索CodeKGC方法的能力：
1 ) 集成更高级的Code - LLMs：随着代码领域语言模型的不断发展，我们将把更新和更强大的Code - LLMs纳入到我们的框架中，这可能会导致知识图谱构建性能的进一步提升。
2 ) 应用于额外的知识图谱任务：我们的方法可以扩展到更多的知识图谱相关任务，比如知识图谱补全。探索我们方法的适用性和有效性将有助于进一步验证其通用性。
3 ) 代码生成优化：我们设计的当前代码生成提示可以进一步细化以更好地捕获底层实体和关系结构的细微差别。利用提示工程或自动提示生成技术也有助于提高代码提示的质量和有效性