阿里：通过知识结构化增强LLM的认知

最新推荐文章于 2024-09-30 13:49:56 发布

大模型任我行

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量637

点赞数 9

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141463262

版权

大模型-模型训练专栏收录该内容

54 篇文章 1 订阅

订阅专栏

在这里插入图片描述

📖标题：Enhancing LLM’s Cognition via Structurization
🌐来源：arXiv, 2407.16434

🛎️文章简介

🔸研究问题：如何通过结构化方法提升大语言模型（LLM）的认知能力。
🔸主要贡献：论文提出了一种名为StruXGPT的结构化方法，将简单无序的上下文句子，转换为有序分层的结构化元素，使LLM更好的理解上下文。

📝重点思路

🔺相关工作

🔸涌现能力：和缩放定律密切相关，达到一定规模后会出现卓越的情境学习、指令遵循和推理能力，通过训练和提示策略能显着提高复杂NLP任务的表现。
🔸上下文增强：以摘要为代表性的方案，能够增强LLM在长格式上下文（具有数千个标记）作为输入时的认知能力，但不可避免地会丢失详细信息。
🔸结构化：传统NLP的结构化，通常指从纯文本中提取的实体-关系-实体三元组或属性，用于构建具有特殊数据格式或模式的知识图或数据库。
🔸知识蒸馏：从大型LLM的输出中提取特定知识（如合成指令），通常被用于教学小一点的LLM。

🔺StruXGPT方案

🔸目标：模仿人类的认知过程，将简单的、连续的文本句子转化为组织良好的、层次化的知识结构。
🔸思想：将输入序列重新组织为范围、方面和描述的三层结构。
🔸实施：选择原始数据，通过强模型（如GPT-4）提取JSON格式的知识结构，并转换为自然语言句子来训练一个具备知识结构化能力的小模型（如LLaMA2-7B）。

🔺结构细节

🔸范围：文本上下文的主题和边界，概述了全文的知识中心问题以及将要涵盖的讨论范围。
🔸方面：将输入上下文进一步细分为几个部分，提出了充分理解主题和范围必须考虑的方面或维度。
🔸描述：最具体和详细的层，它提供了深入的描述和分析来支持上下文范围的各个方面。

🔎分析总结

🔸通过StruXGPT的单轮结构化处理，无论模型的架构和大小如何变化，都能让原始LLM在多种NLP任务中得到一致的提升。
🔸结构化方法也可以提高小模型的表现，表明语言结构化可能是增强语言模型的基本机制，超越了架构设计和规模的差异。
🔸结构化方法在质量的完整性、事实性和抗幻觉性上表现优异，继承了教师模型的结构化能力，证明了训练专业模型的有效性。