题目
通过解决方案指导微调增强小型语言模型的推理能力
论文地址:https://arxiv.org/abs/2412.09906
项目地址:https://github.com/BiJings/SGFT
摘要
大型语言模型(LLM)在广泛的任务中表现出了卓越的性能。快速工程和微调技术的进步进一步增强了他们应对复杂推理挑战的能力。然而,这些高级功能往往是超过1000亿个参数的模型所独有的。虽然已经为较小的模型(100亿个参数以下)探索了思维链(CoT)微调方法,但它们通常依赖于大量的CoT训练数据,这可能会引入不一致性并限制低数据设置的有效性。为了克服这些局限性,本文引入了一种新的推理策略解决方案指导(SG)和一种即插即用的训练范式解决方案——指导微调(SGFT ),用于增强小语种模型的推理能力。SG侧重于语义和逻辑层次上的问题理解和分解,而不是具体的计算,这可以有效地提高SLM的概括和推理能力。只有少量的SG训练数据,SGFT可以微调SLM以产生准确的问题解决指导,然后可以灵活地将这些指导作为提示输入到任何SLM,使其能够直接生成正确的答案。实验结果表明,我们的方法显著提高了SLM在各种推理任务中的性能,增强了它们在资源受限环境中的实用性和效率。
简介
随着大型语言模型(LLM)的规模不断扩大,它们在语言生成、翻译、问题回答等任务中表现出了非凡的能力。此外,他们越来越被公认为解决更复杂挑战的潜力,如推理(杨等,2022)和数学问题解决(米什拉等,2022)。逻辑推理模型在推理任务中的应用引起了学术界的极大兴趣(乔等,2022),特别是在数学领域,推理任务面临着巨大的挑战(陆等,2022)。作为提高逻辑推理模型推理能力的代表性技术之一,思维链推理(CoT)技术(魏等,2022;小岛康誉等人,2022年)使LLM能够逐步推导出答案,而不是直接提供答案,从而产生更准确和可靠的结果。然而,将CoT推理直接应用于参数少于100亿的小型语言模型(SLM)被证明是相当低效的(Ho等人,2022)。Lanham等人(2023)提出,CoT提示仅在特定场景和模型规模下有效。
此外,CoT微调技术已被提出用于SLM(Ho等人,2022)。这种方法包括使用CoT数据微调SLM,允许它们在得出结论之前通过中间步骤进行推理。然而,CoT对每个问题都遵循完全独立的过程,集成了逻辑推理和计算。由于模型训练时少量数据拟合不足,需要大量的CoT训练数据。获取和注释这些数据是劳动密集型的(Li等人,2022),并且依赖于人工注释的数据的逻辑和语法一致性并不总是得到保证。
此外,现有的CoT涉及问题解决步骤和最终答案。每一步都包含具体的解释和计算,当前步骤的结果直接影响下一步的逻辑生成。这种级联效应导致多步解释和计算的累积,从而导致错误传播并经常生成过多的文本,这引入了噪声并最终影响最终答案的准确性。例如,在使用CoT推理解决图1中的数学问题时,在推理过程中错误地生成了一个不必要的步骤:凯特的朋友总共吃了36+24=60片披萨,这导致在后续步骤中错误地计算了奶酪披萨和意大利香肠披萨的数量,最终导致了错误的最终答案。这个问题在可持续土地管理中尤为突出。此外,用大量CoT数据训练的语言模型可能会经历同样重要的一般能力的下降(Fu等人,2023)。当面对常识或简单的问题时,模型可能会编造不存在的推理链,不必要地使问题复杂化,并提供不正确的答案。
为了解决现有CoT技术的上述问题,我们提出了一种新的训练范式,解决方案指导微调(SGFT),以提高小语言模型的推理能力。与现有的CoT不同,我们提出了一种新的推理策略求解指导(SG ),它只期望SLM生成问题求解指导,而不需要计算或额外的解释。SG专注于语义和逻辑层面的问题理解和分解,而不是特定的计算。只有少量的SG训练数据,SGFT可以有效地微调SLM,以生成准确的问题解决指导。然后,我们只需要使用生成的解决方案指南作为另一个SLM的输入提示,它可以生成正确的答案,而无需额外的培训。
为了验证该方法的有效性,我们在多个推理基准数据集上进行了实验。结果表明,与直接应用于SLM的传统CoT微调相比,我们的方法显著提高了数学和常识推理任务的性能,同时保留了SLM的原始能力。此外,由于我们的方法需要的训练数据少得多,因此对于真实世界的应用来说,它更加实用和有效。我们的关键技术贡献如下:我们为小语种模型(SLM)引入了一种新的推理策略解决方案指导(SG),它侧重于问题理解而不是具体的计算。SG能有效降低数据生成成本,显著提高SLM的推理能力。
我们提出了一个即插即用的微调范例,名为SGFT,用于增强空间光调制器的推理能力。仅使用少量SG训练数据,SGFT就可以对SLM进行微调,以生成精确的问题解决指导。然后,这些指导可