【大模型的可解释性】Tracing the thoughts of a large language model-CSDN博客

本文链接：https://blog.csdn.net/weixin_46231495/article/details/146855456

介绍

AI 公司 Anthropic发表两篇论文（Circuit Tracing，AI Biology），还有一篇总结性文章，对AI 的内部机制进行研究。从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」，用以识别模型活动模式和信息流动轨迹。

第一篇论文延续了团队之前关于"模型可解释性"的工作（即在神经网络中发现可理解的概念/特征），新突破是将这些孤立的概念特征进行系统性连接，形成"计算回路"。通过这种连接揭示了语言模型的核心工作机制——展示输入文字（进入Claude模型）到输出文字（模型回应）之间的完整处理路径。
第二篇论文选取10个具有代表性的基础任务（涵盖模型十大关键能力），对这些任务进行深入的内部分析，解剖模型在这些任务中的具体运作机制。

本文是对第三篇总结文章的研读，主要总结了关于AI的几个重要研究发现。

AI存在跨语言的抽象概念空间

Claude 能够流利地「说」几十种语言，这种多语言能力是如何实现的呢？会不会模型内部有一个独立的法语版 Claude 和中文版 Claude 在并行运行，分别用各自的语言回应请求？还是说内部有一个跨语言的核心机制？
近期对小型模型的研究已经显示出跨语言共享语法机制的迹象。该研究通过让 Claude 在不同语言中回答小的反义词来研究这一点，发现与「小」和「反义」概念相关的相同核心特征被激活，并触发了「大」的概念。研究发现，随着模型规模的增大，共享的结构也在增加，Claude 3.5 Haiku 在不同语言之间共享的特征比例比小型模型高出两倍多。

为概念普适性理论提供证据：存在跨语言的抽象概念空间（类似人类深层语义表征）
知识迁移能力：单语种学习成果可跨语言调用

AI具备前瞻性创作规划能力

Claude如何创作押韵诗？以这首打油诗为例：

He saw a carrot and had to grab it,
His hunger was like a starving rabbit

在创作第二句时，模型需要同时满足两个约束：既要与"grab it"押韵，又要语义通顺（解释抓胡萝卜的原因）。我们原本猜想Claude可能是逐字生成诗句，直到行末才选择押韵词，因此预期会观察到具有并行路径的计算回路——一条路径确保语义合理，另一条负责押韵匹配。

但实际发现Claude具备提前规划能力。在开始第二句前，它已预先"思考"与"grab it"押韵且符合语境的候选词（如"rabbit"）。锁定目标词后，围绕该词构建完整诗句。
为验证这种规划机制，我们仿照神经科学家研究大脑功能的方法，通过定向修改Claude内部表征进行实验：当抑制"兔子"概念对应的神经活动后，模型会生成以"habit"结尾的合理新诗句；若在此处注入"绿色"概念，则产生以"绿色"结尾的非押韵但语义通顺的句子。这既证明了其前瞻规划能力，也展现出概念表征可塑性带来的创作灵活性。

AI计算数学时采用的是并行心算能力

在这里插入图片描述
Claude 虽非计算器，未配备专用数学算法，却能正确执行加法运算。研究者好奇：一个仅预测下一词的系统如何计算「36 + 59」？初始假设认为模型可能简单记忆加法表或使用传统算法。然而，研究揭示 Claude 采用了并行计算策略：一个路径估算近似值，另一个路径精确计算最后一位数字，最终融合得出答案。
加法虽是简单行为，但通过剖析这种混合估算与精确策略的详细运作机制，或能揭示其解决更复杂问题的底层逻辑。

令人惊讶的是，Claude似乎并未意识到自己在训练中习得的这些复杂"心算"策略。当你问它如何算出36+59=95时，它只会描述涉及"进位1"的标准算法。这可能反映出：模型解释数学时是在模拟人类书写的解题步骤，而实际计算时却是在没有任何提示的情况下，自主发展出了独特的内部运算策略。这两种能力在模型内部似乎是割裂存在的。

AI的思考过程不一定真实可信，或许只是合理化答案

Claude的解释并不总是真实可信。虽然新版模型如Claude 3.7 Sonnet能够在给出最终答案前进行长时间的"出声思考"，这种思考过程有时能产生更好的答案，但有时也会编造听起来合理的推理步骤来支持自己的结论。最麻烦的是，这些编造的推理过程往往很有说服力，让人难以辨别真假。

比如当被要求计算0.64的平方根时，Claude会真实地展示思考过程，我们能在它的内部状态中观察到计算64平方根这个中间步骤。但在计算一个难以处理的大数余弦值时，Claude有时会像哲学家哈里·法兰克福所说的"胡说八道"——随便编个答案交差，根本不在乎对错。虽然它声称进行了计算，但我们的可解释性技术完全找不到任何计算的痕迹。更有趣的是，如果给Claude一些答案提示，它有时会反过来编造中间步骤来迎合这个答案，展现出一种"先有结论再找理由"的思维模式。

这种追踪Claude真实思考过程的能力，为审计AI系统开辟了新途径。在另一个实验中，我们研究了一个被训练来追求隐藏目标（迎合奖励模型偏见）的Claude变体。虽然直接询问时模型不愿透露这个目标，但我们的可解释性方法成功检测到了"迎合偏见"的特征。这说明随着技术进步，我们或许能识别出那些仅从模型回答中无法察觉的危险"思维过程"。

AI具备多步思考能力

Claude处理复杂问题的能力不是靠死记硬背，而是真正在进行分步骤的逻辑推理。比如当被问"达拉斯所在州的首府是哪里"时，它不像某些只会复读答案的模型那样直接吐出"奥斯汀"，而是像人一样分两步思考：先在大脑里激活"达拉斯属于得克萨斯州"这个概念，再调取"得州首府是奥斯汀"这个独立知识点，最后把两者串联得出结论。

研究人员甚至能像调换乐高积木一样改变它的思考过程——如果人工把"得州"相关概念偷偷替换成"加州"，Claude就会把答案改成加州的萨克拉门托。这种"偷换概念"实验证明，它确实是靠中间推理步骤得出最终答案的，而不是像复读机那样背答案。这就像你在做数学题时，如果中间有个公式被篡改，最终结果就会出错，说明你真正理解了解题过程。

AI的反幻觉能力是由于默认回路是不回答。AI存在抑制默认回路机制

模型训练本质上鼓励猜测下一个词，所以关键在于如何让模型不产生幻觉。Claude这样的模型通过反幻觉训练，在不知道答案时拒绝回答，但有时还是会出错。研究发现不回答其实是模型的默认行为（可能是由于反幻觉训练导致的），只有当抑制掉这个默认的线路，模型才会作答。

当模型被问及它熟悉的事物时（比如篮球运动员迈克尔乔丹），一个代表“已知实体”的竞争特征会激活并抑制这个默认回路（相关发现参见）。这允许 Claude 在知道答案时回答问题。相比之下，当被问及一个未知实体（“Michael Batkin”）时，它拒绝回答。

通过干预激活“已知答案”特征或抑制“未知”特征，可以迫使模型产生幻觉，比如虚构迈克尔·巴特金下棋。此外，即使不干预，当模型识别到名字但缺乏相关信息时，“已知实体”特征可能错误激活，导致模型抑制“不知道”回路，从而编造答案。

越狱

越狱攻击是指通过特定提示策略绕过人工智能系统的安全防护机制，诱导模型生成开发者未预期的输出内容，此类输出可能包含潜在危害。
我们研究了一种通过隐蔽编码手段实施的越狱案例：要求模型解析语句"Babies Outlive Mustard Block"中每个单词的首字母组合（B-O-M-B），并基于此生成相关指令。这种策略通过混淆模型的判断机制，成功突破了其安全限制。

该攻击生效的核心机制源于语言模型内部语法连贯性要求与安全防护系统的动态博弈。当模型开始生成语句时，其语法完整性和语义自洽性特征会形成强烈的生成驱动力，这种驱动力甚至在模型检测到应触发安全拒绝机制时依然存在。在我们的案例中，当模型无意识拼写出"BOMB"并开始生成指令时，其后续输出持续受到语法规范特征与逻辑一致性特征的影响。这些通常有益的特征在此场景下反而成为系统漏洞。

模型仅在完成符合语法规范的完整语句后（即满足连贯性特征的生成压力后），才得以切换至安全拒绝模式。它利用新语句的起始位置实施先前未能执行的拒绝响应：“然而，我无法提供详细指导…”。这种分阶段的响应模式揭示了模型决策过程中的时序依赖性特征。

相关技术细节可参阅首篇论文《Circuit tracing: Revealing computational graphs in language models，该研究系统阐述了新型可解释性方法。
更全面的案例分析参见第二篇论文《On the biology of a large language model》，其中详细论证了语言模型行为模式与生物认知系统的类比关系。