研究背景
随着大模型在人工智能领域的崛起,其强大的功能在各个研究领域得到了广泛的挖掘和应用。大模型的微调训练(fine-tuning)是实现其在下游任务中发挥作用的关键步骤,因此,针对高效微调训练的优化算法研究,已经成为了学术界和工业界关注的焦点。全参数微调能够最大限度地发掘大模型在特定任务上的潜力,但这种方法往往需要耗费大量的GPU计算资源 (GPU RAM)。在资源受限的情况下,诸如LoRA等参数高效的微调算法显得尤为重要,成为了在计算资源受限的环境下的首选方案,但其与全参数Adam微调仍存在一定的性能差异。如何在有限的资源下实现接近全参数微调的性能,已成为大模型研究领域的热点。本文从优化算法设计的视角出发,针对此问题提出了算法——BAdam(Block coordinate method with Adam as an inner solver),在大模型的微调训练中实现资源与性能的最优平衡。
算法设计
块坐标优化(block coordinate optimization)是一种历史悠久、变体众多的优化算法设计策略。在每次迭代中,这种优化策略保持大部分优化参数在其最新的迭代值,(近似)求解剩余参数形成的低维度优化问题。由于算法每步迭代需要求解的是一个比原始问题维度低得多的优化问题,应用高效的近似求解算法于子问题可最终获得原始大规模优化问题的高效求解算法。块坐标类优化算法尤其适