📖标题:Knowledge Mechanisms in Large Language Models: A Survey and Perspective
🌐来源:arXiv, 2407.15017
🛎️文章简介
论文对大语言模型(LLM)中的知识机制进行了调查和展望。首先,介绍了LLM中的知识利用和演化假设。然后,提出了一个新的知识机制分析分类法,并回顾了知识的演化过程。接着,讨论了知识利用的问题和未开发的暗知识。最后,文总结了LLM中的知识记忆、理解应用和创造能力,并提出了一些改进和训练方法。
📝重点思路
🔺预备知识
🔸知识范围:对事实的认识,是熟悉、意识、理解或相识的一种形式,涉及通过经验学到的信息。
🔸LLM知识定义:能够正确回答缺乏信息的问题,如美国的总统是_。
🔸知识分析方法:旨在揭示从输入到输出的精确因果机制,可以分为观察和干预两大类。
🔺知识利用
🔸记忆:旨在记住和回忆知识,例如特定术语(实体)、语法、事实、常识和概念。2个互斥的重要假设 ①知识在独立的模块化区域中进行编码 ②不同区域的连接才能形成知识
🔸理解与应用:侧重于展示对记忆知识的理解,然后在新情况下解决问题,如推理和规划。重要假设 ①LLM在知识理解和应用过程中重复使用某些组件
🔸知识创造:强调形成新颖且有价值的事物的能力和过程,包括两个层面 ①按照LLM所理解的世界原则创造新术语,如写代码和编故事 ②产生新的规则,如数学定理。1个重要假设 ①LLM可以通过外推创造知识
🔺知识演变
🔸个体进化:通过记忆、遗忘、纠错和加深对周围世界的理解的迭代过程而进化,体现在LLM训练过程中知识参数更新和RAG使用。
🔸群体进化:通过社会互动获取新知识,侧重多代理协作中的通信,包括辩论、共享和反思。
🔎分析总结
🔸LLM目前主要学到的是基本的世界知识,仍然难以推理和规划复杂的任务,更无法创造知识。
🔸LLM学到的知识很脆弱,会导致幻觉、知识冲突和安全风险等问题。
🔸暗知识的假设:①人类未知而机器已知 ②人类已知而机器未知的知识 ③人类未知和机器未知
附录