1. 动机
尽管大语言模型在解决通用任务下表现出强大的能力,但在时间知识图谱问答下的效果表现欠佳,原因可以归结为以下两点:(1)缺乏时间相关的知识。2)缺乏复杂的时间推理能力。现有的方法如RAG虽然可以引入时间相关知识,但检索精度和输入长度限制可能会导致不相关的噪音和不完整的推理;通过定制例子可以指导大模型生成更准确的推理,但不能满足不同的实际任务,并且需要大量的时间和人力来获取高质量的例子。因此作者提出摘要推理归纳(ARI)框架增强实用性。
2. 方法
将时间知识推理分为两部分:基于知识的模块和知识不可知的模块。
基于知识的模块根据给定的问题提取相关的TKG子图,通过遍历生成所有可行的细粒度动作。该模块首先通过目标实体挖掘出时间知识图谱的一跳子图,并按照以下动作模版构造下一步的动作,并过滤执行结果为空的动作,将过滤后的动作提供agent选择,并执行agent选择的动作。
知识无关的模块使大模型能够从历史推理示例中提取和应用摘要方法,从而能够适应不同的问题。在解决新的推理挑战时,通过选择与新问题最接近的历史推理簇来提示该过程。然后,提取其生成的摘要方法来指导大模型对当前问题的推理。并在每次迭代中维护历史推理簇。
ARI的代码流程如下:
3. 实验
实验设定:
使用 gpt-3.5-turbo-0613 作为基座。使用LLM构建200个历史推理样本的语料库,推理路径的最大长度设置为5,历史路径类别的数量固定为10。由于测试集规模庞大,其中包括对于超过 50,000 个问答对,作者采用分层抽样方法进行评估,从每次迭代的测试集中提取 200 个问题的子集。
实验结果:
ARI 显著优于当前最先进的 TKGQA 模型,在 MULTITQ 数据集上实现了 29.7% 的相对改进,在 CRONQUESTIONS 数据集上的性能提高了 9.27%。这些实质性的提升可以归因于知识适应性和摘要方法论指导机制,使大模型能够做出先进的决策。通过利用摘要方法,大模型可以选择最佳的时间推理步骤,而无需涉及底层知识的具体细节。
为了验证摘要教学的有效性,作者对推理效率进行了评估。在测试集上,在模型的所有其他组件保持不变的情况下,作者删除摘要指令并记录推理所采取的平均步骤数。与 ARI 相比,在摘要方法论的指导下,LLM 不仅推理精度有所提高,而且在 MULTITQ 上平均推理步骤数减少了 11.4%,在 CRONQUESTIONS 上减少了 9.3%。这强调了摘要方法提供的指导可以显著提高大模型在时间推理任务中的效率。
消融实验:
为了评估模型各个组成部分的功效,作者进行了消融研究。最初,作者删除了摘要指导部分,要求大模型依靠自己对问题的理解,而不需要历史信息的帮助。这导致两个数据集的性能下降,MULTITQ 下降了 19.7%,CRONQUESTIONS 下降了 3.7%。这表明精炼的摘要指导在支持模型的推理能力方面发挥着重要作用。
4. 总结
这项研究以建构主义原则为基础,批判性地审视了大模型在解决复杂的时间推理挑战方面的缺点,并提出了一种创新方法来增强其推理能力。通过知识适应性框架和摘要方法论指导的整合,作者表明大模型可以在复杂的时间场景中获得更精确和高效的推理,有效克服其在处理和解释时间敏感知识方面的限制。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。