📖标题:Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
🌐来源:arXiv, 2502.13842
🌟摘要
🔸大型语言模型(LLM)在参数约束下面临固有的性能瓶颈,特别是在处理需要复杂推理的关键令牌时。实证分析表明,具有挑战性的标记会导致跨层的突然梯度尖峰,暴露出标准变压器中的架构应力点。
🔸基于这一认识,我们提出了内部思维转换器(ITT),它将层计算重新想象为隐式思维步骤。ITT通过自适应令牌路由动态分配计算,通过残差思维连接迭代优化表示,并使用思维步骤编码区分推理阶段。ITT允许在不扩展参数的情况下对关键令牌进行更深入的处理。
🔸对162M-466M参数模型的评估表明,ITT仅使用162M参数就实现了466M Transformer 96.5%的性能,将训练数据减少了43.2%,并在11个基准测试中优于Transformer/Loop变体。通过在推理过程中启用弹性计算分配,ITT通过隐式思维路径的架构感知优化来平衡性能和效率。
🛎️文章简介
🔸研究问题:如何提高大语言模型(LLM)在自然语言任务中的性能,尤其是在参数扩展带来的收益递减的情况下。
🔸主要贡献:论文提出了一种新的ITT框架,通过引入残差思维连接和自适应令牌路由机制,使模型能够在处理关键令牌时动态分配更多的计算资源,从而在性能和效率之间取得平衡。
📝重点思路
🔸Inner Thinking步骤:将Transformer的生成过程分解为多个内部思维步骤,每个步骤都对应于模型的层级计算,通过迭代地修正输出,提升模型的推理能力。
🔸残差思维连接(RTC):该机制允许模型在每个思维步骤中迭代累积每层的输出,以便在保持参数不变的情况下,增强模型的学习和推理能力。
🔸自适应令牌路由:使用权重预测器选择最关键的令牌进行深入思考,通过动态调整计算资源的分配,使模型能够有效地处理不同复杂度的输入。
🔎分析总结
🔸ITT在多个任务上相较于传统Transformer和循环变体表现出更高的性能,且在相同的FLOPs下节省了43.2%的训练数据预算。
🔸关键令牌的多步思维显著提升了模型的推理效果,尤其是在处理复杂样本时,模型的表现优于简单样本。
🔸残差思维连接显著降低了模型在单步推理中的性能瓶颈,使得模型在处理复杂语言模式时能够更有效地进行迭代修正。
💡个人观点
论文的核心是动态的思维步骤分配和残差连接机制,灵活分配计算资源。
🧩附录