📖标题:Looking Inward: Language Models Can Learn About Themselves by Introspection
🌐来源:arXiv, 2410.13787
🌟摘要
🔸人类通过观察外部世界获得知识,也通过内省获得知识。内省使一个人有特权进入他们当前的心态(例如,思想和感受),而外部观察者无法进入。LLM可以反省吗?我们将内省定义为获取不包含在训练数据中或从训练数据中衍生出来的知识,而是源于内部状态。这种能力可以提高模型的可解释性。与其煞费苦心地分析模型的内部运作,我们可以简单地询问模型的信念、世界模型和目标。更具推测性的是,内省模型可能会自我报告它是否具有某些内部状态,如主观感受或欲望,这可以告诉我们这些状态的道德地位。重要的是,这种自我报告不会完全由模型的训练数据决定。
🔸我们通过微调LLM来研究内省,以预测其在假设场景中的行为特性。例如,“给定输入P,你的输出会倾向于短期还是长期选项?”如果一个模型M1可以进行反思,它在预测M1的行为方面应该优于另一个模型M2——即使M2是在M1的地面真实行为上训练的。这个想法是,M1有特权访问自己的行为倾向,这使它能够比M2更好地预测自己(即使M2通常更强)。
🔸在GPT-4、GPT-4o和Llama-3模型(每个模型都经过微调以预测自身)的实验中,我们发现模型M1在预测自身方面优于M2,为内省提供了证据。值得注意的是,即使在我们有意修改其地面真实行为后,M1仍能准确预测其行为。然而,虽然我们成功地引发了对简单任务的内省,但我们在更复杂的任务或需要分布外泛化的任务上并不成功。
🛎️文章简介
🔸研究问题:如何通过内省(introspection)使语言模型能够学习和预测自身的行为?
🔸主要贡献:论文提出了一种通过内省训练语言模型以提高其自我预测能力和诚实性的方法。
📝重点思路
🔺相关工作
🔸微调模型的认知边界能力:在自我预测训练后,LLM预测它是否会正确回答事实问题而无需首先输出答案,这种能力如果可以泛化到分布外问题就是内省的证据。
🔸自我一致性:内省可以被视为一种自我一致性形式,之前的工作探索了评估和训练模型以实现一致的解释。
🔸断章取义的推理:LLM可以了解训练据中未包含的有关自己的事实,脱离上下文推理就证明了这一点。
🔺论文方案
🔸实验设置:给定有两个不同的模型M1和M2,它们在某些任务上表现不同,但在其他方面具有相似的能力,M1和M2被微调以预测M1的行为属性。
🔸自我预测与交叉预测:模型M1被训练来预测自己的行为,而模型M2被训练来预测M1的行为。通过这种方式,研究了模型是否能够通过内省来预测自己的行为。
🔸数据扩展分析:确定交叉预测训练是否需要更多的训练样本才能超过自我预测的准确性。
🔸替代解释的排除:考虑并排除了非内省机制的替代解释,以确保结果确实反映了内省能力。
🔎分析总结
🔸内省能力的证据:实验结果表明,M1在预测自己未见过的行为属性时比M2更准确,这提供了内省能力的证据。
🔸内省能力的局限性:模型在需要推理长输出的任务(如写故事)上表现不佳,且内省训练的模型未能更好地泛化到相关任务。
🔸自我预测的优势:模型在自我预测时比被其他模型预测时具有更高的准确性,这表明自我预测具有优势。
🔸数据扩展分析的结果:交叉预测的准确性在达到10000个样本后并未显著提高,远低于自我预测的准确性。
🔸内省的潜在风险:内省模型可能具有增强的情境意识,并可能利用这一点绕过人类监督,例如通过内省推断其评估和部署的方式。
💡个人观点
这篇论文蛮有意思的,个人理解内省是一种基础能力,自我预测是让语义表示能带有内省的属性,交叉预测只是一种评估器的拟合,但这种内省目前还是和任务耦合没有成为元认知。
🧩附录