【学习笔记】Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph-CSDN博客

本文链接：https://blog.csdn.net/weixin_45838549/article/details/144048573

💡 文章信息

Title	Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph
Journal	()
Authors	Sun Jiashuo,Xu Chengjin,Tang Lumingyuan,Wang Saizhuo,Lin Chen,Gong Yeyun,Ni Lionel,Shum Heung-Yeung,Guo Jian
Pub.date	2023/10/13

📕 研究动机

幻觉问题：生成与事实不符的答案，尤其是涉及领域知识和多跳推理的问题。
透明性不足：缺乏责任性和可解释性，难以追溯输出来源。
成本高昂：训练过程耗时且代价高，使得模型知识更新难以快速实现。

📜 研究内容

本文提出了一种新的紧耦合的LLM⊗KG范式，其中KG和LLM是串联工作的，在图推理的每一步中相互补充彼此的能力。

📊 研究方法

1. 实验设置

（1）数据集

对于GrailQA和Simple Questions这两个大数据集，为了节约计算成本，只随机选取1000个样本作为测试。

多跳任务：CWQ, WebQSP, GrailQA, QALD10-en
单跳任务：Simple Questions
其他任务：如开放域问答（WebQuestions）、槽填充（T-REx, Zero-Shot RE）以及事实验证（Creak）

（2）基座LLM

GPT-3.5-turbo、GPT-4 API
Llama2-70B-Chat

（3）参数设置

对于Llama2-70B-Chat
- temperature：在探索阶段设置为0.4（增加多样性），在推理阶段设置为0（保证可重复性）
- 使用8张A100-40G跑8次，没有量化
其他共性设置
- 生成阶段最大token：256
- beam search的N和Dmax：3

（4）知识图谱

Freebase：使用在CWQ, WebQSP, GrailQA, Simple Questions和Webquestions中
Wikidata：使用在QALD10-en, T-REx, Zero-Shot RE 和 Creak中

2. 实验模型：ToG

（1）初始化

从输入问题中提取主题实体（topic entities），作为推理路径的初始实体集合E0。
使用语言模型根据问题生成初始推理路径集合 P0。
如果问题中的主题实体较少，系统允许路径数量少于 N。

（2）探索

关系探索
- 搜索
  - 第D次迭代开始时，会根据D-1次迭代的尾实体的链接，获得关系候选集
  - 过程是执行了2条简单的预定义query查询，没有任何的训练成本
- 剪枝
  - 利用LLM从候选集中挑选出top-N以尾关系RD结束的推理路径P
实体探索
- 搜索
  - 根据第D-1次迭代检索出的尾实体和第D次迭代检索出的详细，进行查询，获得实体候选集
- 剪枝
  - 利用LLM挑选出新的以为实体ED结束的top-N推理路径P

（3）推理

使用语言模型评估当前推理路径是否包含足够信息回答问题。
- 如果评估结果为“足够”，直接基于当前路径生成答案。
- 如果评估结果为“不足”，继续执行探索步骤，直至路径长度达到最大深度 Dmax。
若达到最大深度仍无法回答问题，基于语言模型的固有知识生成答案。
最多调用2ND+D+1次LLM，其中“2ND”表示D次探索（beam search为N，探索包括关系探索和实体探索两部分），“D”表示D次评价，“1”表示1次生成。

ToG优势

深度推理

ToG 从知识图谱中提取多样化和多跳推理路径，作为语言模型推理的基础，从而增强了语言模型在知识密集型任务中的深度推理能力。

负责任的推理

显式且可编辑的推理路径提升了语言模型推理过程的可解释性，同时支持对模型输出的来源进行追溯和校正。

灵活性和高效性

ToG 是一个即插即用的框架，可以无缝应用于各种语言模型和知识图谱。

在 ToG 框架下，知识可以通过知识图谱频繁更新，而无需更新语言模型，后者的知识更新代价昂贵且缓慢。

ToG 提升了小型语言模型（例如 LLAMA2-70B）的推理能力，使其可以与大型语言模型竞争。

3. 实验模型：ToG-R

与ToG一样，在每次迭代中依次进行关系搜索、关系剪枝和实体搜索。
不同之处是实体剪枝是随机从候选集中采样N个实体，而不是让LLM去选出Top-N。
需要调用ND+D+1次LLM（相较于ToG少了ND次实体剪枝的调用）

ToG-R优势

省去了使用LLM剪枝实体的过程，从而降低了总体成本和推理时间

主要强调关系的字面信息，缓解了当中间实体的字面信息缺失或对LLM不熟悉时误导推理的风险

4. 实验结果

（1）ToG在不同数据集上的表现

（2）ToG选用不同基座LLM的表现

（3）消融实验

不同N和Dmax

不同KG

不同提示方法
不同剪枝工具
不同Beam Search算法
不同样本种子数量

（4）结果分析

错误分析

答案中的证据
探索路径和真实路径的重叠率

🚩 研究结论

1. 在不同数据集进行实验的结论

ToG在多跳任务上更为有效，可以增强LLM的深度推理能力
- 尽管ToG是一个基于提示工程的没有训练的方法，ToG选用GPT-4作为基座LLM时在6个数据集（总共9个）中达到了新的SOTA。如果仅仅和基于提示工程的方法比较，ToG选用GPT4和其更低版本在所有数据集中获胜。
- ToG在开放领域的QA任务重具有通用性。
KG在推理过程中的重要性不容忽视。