论文学习:2024UrbanKGent

UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction----一个用于城市知识图构建的统一的大型语言模型代理框架

paper  code

一、摘要概述

城市知识图建设(UrbanKGC)有很好的好处,但它仍然严重依赖于人工的努力,阻碍了其潜在的发展。本文提出了一种用于城市知识图构建的统一的大型语言模型代理框架UrbanKGent。具体来说,我们首先通过异质性感知和具有地理空间空间的指令生成,为UrbanKGC任务(如关系三组提取和知识图完成)构建知识指令集。此外,我们提出了一个工具增强的迭代轨迹细化模块来增强和细化从GPT-4中提取的轨迹。通过对Llama 2和Llama 3家族进行增强轨迹的混合指令微调,我们得到了UrbanKGC代理家族2,由UrbanKGent-7/8/13B版本组成。

二、简述发展

LLM代理最近出现,在自主领域特定任务完成方面显示出了显著的零射击能力。例如,旅行者是一个由LLM驱动的代理,无需再训练的零射击游戏探索,而LLMLight 是一个具有零射击LLM推理能力的交通信号控制代理。这些研究促使我们构建量身定制的LLM代理,以解决UrbanKG建设中的局限性。

事实上,构建一个与各种UrbanKGC任务兼容的LLM代理是一个重要的问题,因为存在以下两个挑战:

(1)挑战1:如何使LLM适应于UrbanKGC?由于训练llm的自然语言处理语料库与城市域[19]中的领域特定语料库之间的差距,llm可能不能很好地与特定任务保持一致。例如,城市文本数据通常是异构的,并包含多方面的城市知识(例如,空间、时间和功能方面)

(2)挑战2:如何提高UrbanKGC的llm的能力?llm对城市知识图构建的有效性受到其数值计算能力[20,21]薄弱的限制,导致其在复杂的地理空间关系提取[22,23]中失效。然而,城市地理空间关系在城市语义建模[12]中起着至关重要的作用,并已被广泛纳入以往的UrbanKGs [8,24]中。准确地提取这种地理空间关系需要必要的地理空间计算(例如,利用纬度和经度计算距离)和推理(即推导地理空间关系推理的计算结果)能力。需要提高llm的地理空间计算和推理能力,以满足UrbanKGC的任务需求。

Contributions

(1)我们提出第一个UrbanKGC代理框架,U和UrbanKGent家族提供现实世界的UrbanKGC服务,为推进UrbanKG研究提供新的机会。

(2)我们提出了一种知识渊博的指令生成模块和一种工具增强的迭代轨迹细化方法,该方法将llm与UrbanKGC任务对齐,并补偿其地理空间计算和推理能力。

(3)在两个真实数据集上进行的大量实验验证了所提出的框架的有效性,并揭示了其在UrbanKGC任务中的卓越性能。

三、UrbanKGC

UrbanKGC数据描述

Data Preprocessing:在构建UrbanKGC数据集之前,我们首先对原始数据集进行预处理。我们过滤掉AOI、道路、POI、评论和网页,这些网页的爬行文本描述为零值、太短(例如,少于10个单词的描述)或毫无意义(例如,只是重复POI名称)。此外,我们还从文本描述中删除了不相关的信息,如非英语字符、非ascii格式的胡言乱语、网站地址等。更多细节见附录A。

UrbanKGC的任务定义,任务分析:

UrbanKGC代理建设:

UrbanKGent框架的总体管道如图所示。(1)知识丰富的指令生成包括异构感知和注入地理空间的指令生成模块,用于将llm与UrbanKGC任务对齐。(2)工具增强迭代轨迹细化提出了地理空间工具界面调用和迭代自细化机制来增强和细化生成的轨迹。(3)混合指令微调基于细化的轨迹微调llm,以成本有效地完成不同的UrbanKGC任务。

关于UrbanKGC任务的推理:
通过混合指令微调,可以将获得的LLM UrbanKGent训练为按照指令完成UrbanKGC任务。我们按照图4所示的管道提示UrbanKGent完成UrbanKGC任务。对于RTE任务,我们依次执行实体识别、关系提取和关系三联体指令生成、迭代自细化并输出提取的三联体。对于KGC任务,我们依次执行KGC指令生成、外部工具增强、迭代自细化块,最后输出完成的三联体。

四、实验

数据集:

在这项工作中,UrbanKGC的两个顺序任务(即RTE和KGC)是在一个开放世界设置(即没有预定义的本体)[40,41]中。我们分别从表1中的5个原始数据中进行均匀采样,构建了NYC和CHI的RTE和KGC数据集。如表2所示,我们首先构建了两个小数据集(即NYC-Douclt和CHI-Doudelt)和两个中间数据集(即NYC和CHI)来验证所构建的UrbanKGC代理的性能。其余的数据作为大规模的UrbanKGC数据集(即NYC-CHILarge和Large)

评估方案:

在本研究中,我们将评价视为二元分类,即RTE任务中提取的三联体是正确的,KGC任务中完成的关系是正确的。我们遵循最近基于llm的KGC工作,使用准确性作为评价指标。为了对实验结果进行全面的评价,我们采用了人体评价和GPT评价,这已在许多LLM研究中广泛应用。对于人工评估,我们使用人工注释者来评估结果

Main Result:
性能结果见表。可以看出,所构造的代理在两个UrbanKGC数据集上优于所有31个基线模型。具体来说,与在纽约市拥有相同推理管道的最先进的GPT-4相比,UrbanKGent-13B实现了(15.56%、14.29%、14.89%和11.90%)的改进。CHI的改善率分别为(15.22%、17.07%、13.46%和13.95%)。此外,UrbanK-Gent-7/8B也取得了相当的性能。
同时,我们观察到零射击的llm在UrbanKGC任务中表现很差,即使使用GPT-4。此外,尽管内部上下文学习提供的演示可以包含UrbanKGC任务信息,但性能增益是有限的。此外,我们发现微调llm可以对整体性能有明显的改进。通过微调,Llama-2-7/13B和Llama-3-8B在ZSL设置下可以实现与GPT-3.5相当的性能。
我们首先将UrbanKGent-13B用于首次收购纽约市和芝加哥的UrbanKGs。经过对三联体进行适当的过滤和合并,我们得到了两个大规模的urbankg。与现有的UrbanKG基准测试相比,我们只使用了大约五分之一的数据来构建具有相同规模的三联体和实体的UrbanKG,甚至将关系的种类扩展到原始类型的100倍。此外,我们还提供了效率分析。可以看出,UrbanKGent-13B在延迟方面实现了较低的推理速度,在RTE和KGC任务中将成本降低了大约20倍。详细信息见附录E.3。

五、相关工作

面向域的代理构造。语言代理[34]的概念最近已经变得非常流行,并且已经提出了多种针对不同域的LLM代理。例如,旅行者[16]是为自动游戏探索而构建的,WebGPT [17]是一个用于不同文档理解任务的HTML代理,LLMLight [53]为运输领域构建了一个语言代理,K2 [13]、地理卡拉狄加[19]和GeoLLM [12]建议为地理空间语义理解重新训练语言代理。此外,最近的许多工作,如Auto-GPT [54]和camml[55],旨在提出一个代理构建的自治代理框架。然而,在城市计算领域中还没有UrbanKGC代理建设框架。

用于知识图构建的llm。近年来,l[56]的出现为NLP领域注入了活力。许多研究已经开始探索llm在KG构建领域的潜力。例如,[32,57]发现,将NER和RE任务转换为一个多回合的问答对话框可以提高模型的性能。[9]明确地推导出语法知识来指导llm进行思考,从而发展NER的性能。尽管这些llm驱动的KG建设方法[58,40]在一般领域被广泛研究,但在城市领域的KG建设仍然是一个开放的挑战[59]。

城市知识图。城市知识图已被证明在各种城市任务中很有用,如交通流量预测[60,61,27,62]、移动性预测[6]、站点选择[7]、城市分析[63]、犯罪预测等[8,64,65]。他们常用的方法是手工提取城市实体和定义城市关系来构建城市知识图。例如,[6]构建了一个专门的轨迹和时间戳时空知识图作为实体来改进轨迹预测,[7]构建了用户签入关系以帮助移动性预测。然而,现有的urbankg严重依赖人工设计,导致劳动力成本较高。

六、ALL IN ALL

在这项工作中,我们提出了UrbanKGent,第一个自动的UrbanKG建设代理框架。我们首先构建了一个知识渊博的指令集,为不同的UrbanKGC任务采用llm。然后,我们提出了一个工具增强的迭代轨迹细化模块,以方便各种大型语言模型的指令调优。大量的实验结果表明,UrbanKGent在改进UrbanKGC任务方面的进展。获得的UrbanKGent代理家族,由7/8/13B版本组成,与降低UrbanKG构建的GPT-4版本相比,其延迟和成本更低。我们希望开源的UrbanKGent能够促进未来的城市知识图研究和更广泛的智能城市应用。

更多详情查看原文

仅供学习、记录所用!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值