中科院：动态分配LLM计算资源_中科院大语言分层-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/145908557

在这里插入图片描述

📖标题：Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
🌐来源：arXiv, 2502.13842

🌟摘要

🔸大型语言模型（LLM）在参数约束下面临固有的性能瓶颈，特别是在处理需要复杂推理的关键令牌时。实证分析表明，具有挑战性的标记会导致跨层的突然梯度尖峰，暴露出标准变压器中的架构应力点。
🔸基于这一认识，我们提出了内部思维转换器（ITT），它将层计算重新想象为隐式思维步骤。ITT通过自适应令牌路由动态分配计算，通过残差思维连接迭代优化表示，并使用思维步骤编码区分推理阶段。ITT允许在不扩展参数的情况下对关键令牌进行更深入的处理。
🔸对162M-466M参数模型的评估表明，ITT仅使用162M参数就实现了466M Transformer 96.5%的性能，将训练数据减少了43.2%，并在11个基准测试中优于Transformer/Loop变体。通过在推理过程中启用弹性计算分配，ITT通过隐式思维路径的架构感知优化来平衡性能和效率。

🛎️文章简介

🔸研究问题：如何提高大语言模型（LLM）在自然语言任务中的性能，尤其是在参数扩展带来的收益递减的情况下。
🔸主要贡献：论文提出了一种新的ITT框架，通过引入残差思维连接和自适应令牌路由机制，使模型能够在处理关键令牌时动态分配更多的计算资源，从而在性能和效率之间取得平衡。

📝重点思路

🔸Inner Thinking步骤：将Transformer的生成过程分解为多个内部思维步骤，每个步骤都对应于模型的层级计算，通过迭代地修正输出，提升模型的推理能力。
🔸残差思维连接（RTC）：该机制允许模型在每个思维步骤中迭代累积每层的输出，以便在保持参数不变的情况下，增强模型的学习和推理能力。
🔸自适应令牌路由：使用权重预测器选择最关键的令牌进行深入思考，通过动态调整计算资源的分配，使模型能够有效地处理不同复杂度的输入。

🔎分析总结

🔸ITT在多个任务上相较于传统Transformer和循环变体表现出更高的性能，且在相同的FLOPs下节省了43.2%的训练数据预算。
🔸关键令牌的多步思维显著提升了模型的推理效果，尤其是在处理复杂样本时，模型的表现优于简单样本。
🔸残差思维连接显著降低了模型在单步推理中的性能瓶颈，使得模型在处理复杂语言模式时能够更有效地进行迭代修正。