AI人工智能 大型语言模型与知识图谱:机遇与挑战

大模型与知识图谱是知识表达的一体两面,如何结合两者是近期业界关注的焦点。来自英国爱丁堡大学等学者最新《大模型与知识图谱》的简述,讨论了大模型和知识图谱的互相促进的方式,值得关注!

知识图谱与大型语言模型

知识从表格数据中的提取

从数据库、网页表格和CSV文件等表格数据中提取知识是构建KG的常见方式。对于已知语义(元信息)的表格,可以定义和使用启发式规则将其数据转化为KG事实。然而,现实世界的表格通常具有不明确的语义,重要的元信息(如表格名称和列标题)未明确定义。与此同时,在可以提取预期的知识之前,通常需要检索、探索、整合和策划原始数据。

近年来,基于Transformer的LM已被研究用于处理表格,尤其是它们的文本内容。它们可以被应用于表格向量表示作为其他预测任务的基础[168]。TURL [38] 是一个典型的表格表示学习方法,使用BERT [39],已应用于多个任务,如单元格填充、列类型注释和关系提取。类似地,RPT [162] 使用BERT和GPT进行表格表示模型的预训练。Starmie [47] 使用模板将列转化为序列,并使用可联合和不可联合的列对作为样本微调BERT,采用对比学习框架。

在所有表格处理任务中,语义表格注释,该注释将表格数据匹配到KG组件(例如,表格列到KG类,表格单元格到KG实体,列间关系到KG属性)可以直接应用于提取知识,用于KG的构建和填充[103, 76]。已经有几次尝试使用LLMs进行这些任务。Doduo [155] 将表格序列化为一个令牌序列,并训练BERT来预测列类型和列间关系。Korini等人[86]提示ChatGPT来注释语义列类型。当任务特定的示例极少或不存在时,ChatGPT的性能与RoBERTa模型相似。

尽管已经注意到了利用LLMs进行表格数据处理和KG构建,但仍然有很大的研究空间,特别是面临以下挑战:

将表格内容转化为序列:表格或带有其结构化上下文的表格元素需要被转化为一个序列,然后才能输入到LLMs中。对于不同的LLM利用场景,如微调LLMs、带提示的LLM推断以及LLM的指导调整,需要不同的转换方法。

表示和利用非文本的表格数据:表格通常不仅包含长文本和短文本,还包含如数字和日期等其他类型的数据。还有很少的工作考虑这些数据。

提取表格知识:LLMs主要用于处理和理解表格,但很少应用于知识提取的最后步骤。已知OntoGPT[25]使用ChatGPT从文本中提取实例以填充本体,但对于表格没有对应的工具。除了实例之外,提取关系事实更具挑战性。

从文本中提取知识

从文本中提取知识通常涉及自动提取实体及其相关关系,传统的流水线处理大量的句子和文档。这个过程使原始文本转化为可行动的知识,有助于各种应用,如信息检索、推荐系统和KG构建。LLMs的语言理解能力已经增强了这一过程。例如,

命名实体识别 (NER) 和实体链接:如4.1.1节所述,涉及识别和分类文本中的命名实体(如人、组织和地点)并将其链接(更多内容参见4.2.1节)到KGs。

关系提取:关注识别和分类实体之间的关系,利用LLMs的零射击和少射击的上下文学习技术[178, 93]。

事件提取:旨在检测和分类文本中提到的事件,包括其参与者和属性[170, 194]。

语义角色标记 (SRL):涉及识别句子中实体所扮演的角色,如主语、宾语和谓语[148, 199]。

这些方法允许LLMs从文本中提取信息,无需在特定领域进行大量的明确培训,从而提高其多功能性和适应性。此外,LLMs已经证明了在从英语之外的语言中提取知识的能力,包括低资源语言,为跨语言知识提取铺平了道路,并使LLMs能够在多种语言环境中使用[89]。

此外,对LLMs的提示引入了NLP领域的新范式和可能性。LLMs可以生成高质量的合成数据,然后可以用来微调较小的特定任务模型。这种方法,称为合成数据生成,解决了有限的训练数据可用性的挑战,并提高了模型的性能[77, 163]。此外,指导调整已经成为一种强大的技术,其中LLMs被训练在由明确指令描述的数据集上,使得能够更精确地控制和定制它们的行为以适应特定的任务[178, 174]。

还有,对于构建特定领域的KGs,风险更高,因此对生成的文本(由专家)进行审查是必要的。然而,这仍然是一个进步,因为人工注释的成本低于人类文本生成。除了训练和利用这些LLM所需的大量计算资源需求之外,还存在各种挑战,包括在第2节中提到的挑战。更具体地说,以下未来的方向仍然是可能的:

从非常长的文档中有效提取:当前的LLMs无法一次处理像小说这样的非常长的文档。在这方面,可以进一步改进建模长范围依赖性和执行语料级信息提取。

高覆盖率信息提取:几乎所有的提取流水线都关注高精度。然而,高回报率被忽视或未被充分探索[152]。建立具有高精度和高回报率的知识提取器将是建立终身信息提取器的一个巨大飞跃。

近年来,大型语言模型(LLMs)的进展为知识图谱(KG)研究标志了一个重要的转折点。尽管如何结合它们的优势的重要问题仍然悬而未决,但这为未来的研究提供了令人兴奋的机会。社区已经迅速调整其研究重点,新的论坛如 KBC-LM 工作坊 [79] 和 LM-KBC 挑战 [151] 已经出现,资源大量转向知识提取、整合和使用的混合方法。我们提出以下建议:

不要因为范式的转变而丢弃 KG:对于一系列可靠性或安全关键的应用,结构化知识仍然是不可或缺的,我们已经概述了 KGs 和 LLMs 如何相互促进的多种方式。KGs 是留下来的,不要仅仅因为时尚而抛弃它们。

杀掉你的宠儿:LLMs 已经大大推进了 KG 和本体构建管道中的许多任务,甚至使一些任务过时。对最为确立的管道组件进行严格的审查,并不断地与基于 LLM 的最新技术进行比较。

保持好奇,保持批判:LLMs 无疑是过去几年 AI 研究的最令人印象深刻的产物。尽管如此,公众和研究文献中都存在大量夸大的声明和期望,人们应该保持适度的批判反思。特别是,对所谓的幻觉问题的根本解决方法尚未出现。

过去已经结束,让我们开始新的旅程:由 LLMs 触发的进展以前所未有的方式颠覆了这个领域,并使得进入这个领域有了重要的捷径。在与知识计算相关的领域开始新的征程,现在是最好的时机。尽管目前的转变方向广泛开放,但随着研究者继续探索混合方法的潜力和挑战,我们可以期待在知识的表示和处理上看到新的突破,这将对从知识计算到 NLP、AI 乃至其他领域产生深远的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值