人大:LLM内部一致性和自我反馈综述

在这里插入图片描述

📖标题:Internal Consistency and Self-Feedback in Large Language Models: A Survey
🌐来源:arXiv, 2407.14507

🛎️文章简介

论文从大语言模型(LLM)表现出的推理缺陷或生成幻觉内容,提出了内部一致性的理论框架,并从自我反馈的角度来分析如何增强内部一致性,最后总结了相关的评估基准和探索方向。

📝重点思路

🔺背景问题

🔸现状:当前的模型难以产生一致的响应,面对分布外问题时表现出不合逻辑的推理,并且在对自身能力边界认识不足的情况下表现出过度的自信。
🔸分析:三个维度反映内部一致性 ①表面层体现出对相同的查询产生不一致的响应 ②中间层是由于解码过程中的随机采样 ③内部层是潜在状态下的特定注意头与回答忠实度相关性。
🔸缓解:扩大模型规模是最直接的方法,但没有从根本解决问题,模仿人类思维过程让模型自我评估是提高一致性的思路。

🔺内部一致性

🔸按照三个维度定义:响应一致性,解码一致性,潜在一致性
🔸实证研究:即使LLM知道正确答案,直接反应是不一致的,意味着许多反应可能是随机的。
🔸根源分析:模型架构、训练过程、用户查询都会导致内部一致性较低,表现在中间实体的信号强度较弱、增强信号强度没有改善和推理时的雪球效应等。
🔸理解视角:重点关注模型在表达过程中是否能够与自身保持一致,涉及真实性、概率校准、自我认知、可解释性和不欺骗。

🔺自我反馈

🔸两个维度定义:①狭义上是通过自身反馈来提高一致性 ②广义上是通过模型间的辩论来提高能力。
🔸两个分类视角:①根据自我反馈的组成部分分类 ②根据任务,QA推理能力弱和开放式生成幻觉,文章按照这个维度。
🔸一致性信号:不确定性估计,置信度估计,幻觉检测,文本批评,对比优化,外部反馈。

🔺优化方式

🔸推理角度:拓扑推理,对响应进行精炼,多智能体协作
🔸幻觉角度:迭代地完善响应,生成时减轻幻觉(矛盾消除),真实解码(概率校准),真实激活(注意力头)
🔸其他角度:偏好学习,知识蒸馏

🔺探索方向

🔸相互矛盾的观点是否就是错的?
🔸自我反馈是否真的能提高内部一致性?
🔸内部一致性是否意味着正确性?

附录

在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值