📖标题:Internal Consistency and Self-Feedback in Large Language Models: A Survey
🌐来源:arXiv, 2407.14507
🛎️文章简介
论文从大语言模型(LLM)表现出的推理缺陷或生成幻觉内容,提出了内部一致性的理论框架,并从自我反馈的角度来分析如何增强内部一致性,最后总结了相关的评估基准和探索方向。
📝重点思路
🔺背景问题
🔸现状:当前的模型难以产生一致的响应,面对分布外问题时表现出不合逻辑的推理,并且在对自身能力边界认识不足的情况下表现出过度的自信。
🔸分析:三个维度反映内部一致性 ①表面层体现出对相同的查询产生不一致的响应 ②中间层是由于解码过程中的随机采样 ③内部层是潜在状态下的特定注意头与回答忠实度相关性。
🔸缓解:扩大模型规模是最直接的方法,但没有从根本解决问题,模仿人类思维过程让模型自我评估是提高一致性的思路。
🔺内部一致性
🔸按照三个维度定义:响应一致性,解码一致性,潜在一致性
🔸实证研究:即使LL