UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction----一个用于城市知识图构建的统一的大型语言模型代理框架
一、摘要概述
城市知识图建设(UrbanKGC)有很好的好处,但它仍然严重依赖于人工的努力,阻碍了其潜在的发展。本文提出了一种用于城市知识图构建的统一的大型语言模型代理框架UrbanKGent。具体来说,我们首先通过异质性感知和具有地理空间空间的指令生成,为UrbanKGC任务(如关系三组提取和知识图完成)构建知识指令集。此外,我们提出了一个工具增强的迭代轨迹细化模块来增强和细化从GPT-4中提取的轨迹。通过对Llama 2和Llama 3家族进行增强轨迹的混合指令微调,我们得到了UrbanKGC代理家族2,由UrbanKGent-7/8/13B版本组成。
二、简述发展
LLM代理最近出现,在自主领域特定任务完成方面显示出了显著的零射击能力。例如,旅行者是一个由LLM驱动的代理,无需再训练的零射击游戏探索,而LLMLight 是一个具有零射击LLM推理能力的交通信号控制代理。这些研究促使我们构建量身定制的LLM代理,以解决UrbanKG建设中的局限性。
事实上,构建一个与各种UrbanKGC任务兼容的LLM代理是一个重要的问题,因为存在以下两个挑战:
(1)挑战1:如何使LLM适应于UrbanKGC?由于训练llm的自然语言处理语料库与城市域[19]中的领域特定语料库之间的差距,llm可能不能很好地与特定任务保持一致。例如,城市文本数据通常是异构的,并包含多方面的城市知识(例如,空间、时间和功能方面)
(2)挑战2:如何提高UrbanKGC的llm的能力?llm对城市知识图构建的有效性受到其数值计算能力[20,21]薄弱的限制,导致其在复杂的地理空间关系提取[22,23]中失效。然而,城市地理空间关系在城市语义建模[12]中起着至关重要的作用,并已被广泛纳入以往的UrbanKGs [8,24]中。准确地提取这种地理空间关系需要必要的地理空间计算(例如,利用纬度和经度计算距离)和推理(即推导地理空间关系推理的计算结果)能力。需要提高llm的地理空间计算和推理能力,以满足UrbanKGC的任务需求。
Contributions
(1)我们提出第一个UrbanKGC代理框架,U和UrbanKGent家族提供现实世界的UrbanKGC服务,为推进UrbanKG研究提供新的机会。
(2)我们提出了一种知识渊博的指令生成模块和一种工具增强的迭代轨迹细化方法,该方法将llm与UrbanKGC任务对齐,并补偿其地理空间计算和推理能力。
(3)在两个真实数据集上进行的大量实验验证了所提出的框架的有效性,并揭示了其在UrbanKGC任务中的卓越性能。
三、UrbanKGC
UrbanKGC数据描述
UrbanKGC的任务定义,任务分析:
UrbanKGC代理建设:
UrbanKGent框架的总体管道如图所示。(1)知识丰富的指令生成包括异构感知和注入地理空间的指令生成模块,用于将llm与UrbanKGC任务对齐。(2)工具增强迭代轨迹细化提出了地理空间工具界面调用和迭代自细化机制来增强和细化生成的轨迹。(3)混合指令微调基于细化的轨迹微调llm,以成本有效地完成不同的UrbanKGC任务。

四、实验
数据集:
在这项工作中,UrbanKGC的两个顺序任务(即RTE和KGC)是在一个开放世界设置(即没有预定义的本体)[40,41]中。我们分别从表1中的5个原始数据中进行均匀采样,构建了NYC和CHI的RTE和KGC数据集。如表2所示,我们首先构建了两个小数据集(即NYC-Douclt和CHI-Doudelt)和两个中间数据集(即NYC和CHI)来验证所构建的UrbanKGC代理的性能。其余的数据作为大规模的UrbanKGC数据集(即NYC-CHILarge和Large)
评估方案:
在本研究中,我们将评价视为二元分类,即RTE任务中提取的三联体是正确的,KGC任务中完成的关系是正确的。我们遵循最近基于llm的KGC工作,使用准确性作为评价指标。为了对实验结果进行全面的评价,我们采用了人体评价和GPT评价,这已在许多LLM研究中广泛应用。对于人工评估,我们使用人工注释者来评估结果

五、相关工作
面向域的代理构造。语言代理[34]的概念最近已经变得非常流行,并且已经提出了多种针对不同域的LLM代理。例如,旅行者[16]是为自动游戏探索而构建的,WebGPT [17]是一个用于不同文档理解任务的HTML代理,LLMLight [53]为运输领域构建了一个语言代理,K2 [13]、地理卡拉狄加[19]和GeoLLM [12]建议为地理空间语义理解重新训练语言代理。此外,最近的许多工作,如Auto-GPT [54]和camml[55],旨在提出一个代理构建的自治代理框架。然而,在城市计算领域中还没有UrbanKGC代理建设框架。
用于知识图构建的llm。近年来,l[56]的出现为NLP领域注入了活力。许多研究已经开始探索llm在KG构建领域的潜力。例如,[32,57]发现,将NER和RE任务转换为一个多回合的问答对话框可以提高模型的性能。[9]明确地推导出语法知识来指导llm进行思考,从而发展NER的性能。尽管这些llm驱动的KG建设方法[58,40]在一般领域被广泛研究,但在城市领域的KG建设仍然是一个开放的挑战[59]。
城市知识图。城市知识图已被证明在各种城市任务中很有用,如交通流量预测[60,61,27,62]、移动性预测[6]、站点选择[7]、城市分析[63]、犯罪预测等[8,64,65]。他们常用的方法是手工提取城市实体和定义城市关系来构建城市知识图。例如,[6]构建了一个专门的轨迹和时间戳时空知识图作为实体来改进轨迹预测,[7]构建了用户签入关系以帮助移动性预测。然而,现有的urbankg严重依赖人工设计,导致劳动力成本较高。
六、ALL IN ALL
在这项工作中,我们提出了UrbanKGent,第一个自动的UrbanKG建设代理框架。我们首先构建了一个知识渊博的指令集,为不同的UrbanKGC任务采用llm。然后,我们提出了一个工具增强的迭代轨迹细化模块,以方便各种大型语言模型的指令调优。大量的实验结果表明,UrbanKGent在改进UrbanKGC任务方面的进展。获得的UrbanKGent代理家族,由7/8/13B版本组成,与降低UrbanKG构建的GPT-4版本相比,其延迟和成本更低。我们希望开源的UrbanKGent能够促进未来的城市知识图研究和更广泛的智能城市应用。
更多详情查看原文
仅供学习、记录所用!