阿里:通过知识结构化增强LLM的认知

在这里插入图片描述

📖标题:Enhancing LLM’s Cognition via Structurization
🌐来源:arXiv, 2407.16434

🛎️文章简介

🔸研究问题:如何通过结构化方法提升大语言模型(LLM)的认知能力。
🔸主要贡献:论文提出了一种名为StruXGPT的结构化方法,将简单无序的上下文句子,转换为有序分层的结构化元素,使LLM更好的理解上下文。

📝重点思路

🔺相关工作

🔸涌现能力:和缩放定律密切相关,达到一定规模后会出现卓越的情境学习、指令遵循和推理能力,通过训练和提示策略能显着提高复杂NLP任务的表现。
🔸上下文增强:以摘要为代表性的方案,能够增强LLM在长格式上下文(具有数千个标记)作为输入时的认知能力,但不可避免地会丢失详细信息。
🔸结构化:传统NLP的结构化,通常指从纯文本中提取的实体-关系-实体三元组或属性,用于构建具有特殊数据格式或模式的知识图或数据库。
🔸知识蒸馏:从大型LLM的输出中提取特定知识(如合成指令),通常被用于教学小一点的LLM。

🔺StruXGPT方案

🔸目标:模仿人类的认知过程,将简单的、连续的文本句子转化为组织良好的、层次化的知识结构。
🔸思想:将输入序列重新组织为范围、方面和描述的三层结构。
🔸实施:选择原始数据,通过强模型(如GPT-4)提取JSON格式的知识结构,并转换为自然语言句子来训练一个具备知识结构化能力的小模型(如LLaMA2-7B)。

🔺结构细节

🔸范围:文本上下文的主题和边界,概述了全文的知识中心问题以及将要涵盖的讨论范围。
🔸方面:将输入上下文进一步细分为几个部分,提出了充分理解主题和范围必须考虑的方面或维度。
🔸描述:最具体和详细的层,它提供了深入的描述和分析来支持上下文范围的各个方面。

🔎分析总结

🔸通过StruXGPT的单轮结构化处理,无论模型的架构和大小如何变化,都能让原始LLM在多种NLP任务中得到一致的提升。
🔸结构化方法也可以提高小模型的表现,表明语言结构化可能是增强语言模型的基本机制,超越了架构设计和规模的差异。
🔸结构化方法在质量的完整性、事实性和抗幻觉性上表现优异,继承了教师模型的结构化能力,证明了训练专业模型的有效性。

💡个人观点

论文将大型LLM的结构化能力迁移到小型模型中,并证明了结构化对模型性能的帮助。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值