📖标题:Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models
🌐来源:arXiv, 2408.06663
摘要
🔸大型语言模型的发展导致了一种预训练-微调范式的形成,其中模型通常在大型文本语料库上进行预训练,并经历一个调整阶段,以使模型与人类偏好或下游任务对齐。在这项工作中,我们通过微调多个中间预训练模型检查点,研究了预训练和微调之间的关系。
🔸我们在18个数据集上的结果表明:i)持续预训练以潜在方式改进模型,这种改进在微调后显现出来;ii)通过额外的微调,模型在预训练阶段表现不佳的数据集获得的收益要比模型表现良好的数据集更多;iii)尽管模型通过有监督的微调获得了显著的好处,但它可能会忘记先前已知的领域知识和在微调过程中未见过的任务;iv)模型在经过有监督的微调后对评估提示表现出高度敏感,但这种敏感性可以通过更多的预训练来缓解。
🛎️文章简介
🔸研究问题:预训练模型在某些任务上表现不佳,是否通过微调可以改善这些任务的表现,以及预训练和微调之间有何关联?
🔸主要贡献:论文揭示了预训练和微调对大语言模型(LLM)性能的影响,提出了通过微调可以显著提升模型在特定任务上的表现,并探讨了预训练和微调过程中的学习动态。
📝重点思路
🔺相关工作
🔸预训练:LLM训练的第一步是在大量文本语料库上进行预训练,探索了模型大小、训练语 料库大小和训练数据特征的影响。
🔸监督微调:使用通用文本到文本解决方案来调优预训练的LLM,产出了各种前缀调优方法和指令调优方法。
🔸指令微调:当需要更通用的模型行为时首选指令微调,使用人类反馈强化学习(RLHF)和人工智能反馈强化学习(RLAIF),都利用奖励模型来模拟人类反馈。
🔸上下文学习:不会更改模型参数,但利用少量监督数据作为示例可以提高模型性能。
🔺论文方案
🔸对预训练模型在多个任务上的表现进行评估,比较微调前后的性能变化。
🔸分析不同预训练阶段模型微调后的性能,探讨预训练步骤对微调效果的影响。
🔸对选定的模型检查点进行监督微调和指令微调,并在一系列大型语言模型基准上进行评估。
🔎分析总结
🔸预训练模型在某些数据集上表现不佳,但通过微调可以显著提升这些数据集上的性能。
🔸早期检查点从微调中获得更大的收益,而后期检查点在微调后性能提升较小。
🔸监督微调可以教会模型如何为特定任务格式化响应,但过度微调可能导致模型忘记某些领域知识或任务格式。
🔸预训练模型在某些任务上表现出高度的评估提示敏感性,但通过更多的预训练可以缓解这种敏感性。
💡个人观点
论文通过实验揭示了预训练和微调对大型语言模型性能的影响,提出了微调可以作为在资源密集型预训练模型不可用时获取高质量模型的实际选择。
附录