📖标题:Generalization v.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Data
🌐来源:arXiv, 2407.14985
🛎️文章简介
🔸研究问题:预训练大语言模型(LLM)在处理文本任务时,是具备泛化能力还只是依赖记忆?
🔸主要贡献:论文通过对预训练数据进行搜索和分析,探讨了LLM的记忆和泛化能力,并提出了一种可扩展的方法将LLM的能力回溯到预训练数据。
📝重点思路
🔺相关工作
🔸尽管LLM在许多文本任务中表现出色,但关于它们对未见过的案例具备泛化还只是从大量训练数据中进行记忆,依旧存在争议。
🔸我们的目标是利用更复杂的LLM能力,这不能通过复制训练数据来解释。
🔺论文方案
🔸概念:将“记忆”定义为LLM生成与训练数据之间的相似程度,将“泛化”定义为LLM生成与训练数据的差异程度。
🔸思想:通过计算n-gram在预训练损失梯度与任务示例梯度之间的相似度来衡量其贡献。
🔸实施:选择翻译、事实问答和多项选择推理三种任务,通过余弦相似度,计算包含任务相关n-gram对的预训练数据对任务示例(x,y)的贡献。
🔎分析总结
🔸n-gram对数据相对于单个n-gram数据对任务的贡献更为一致,这证实了任务相关n-gram对是一个良好指标。
🔸随着模型尺寸的增加,梯度相似度呈现U形趋势,表明模型在尺寸增长时对预训练数据先减少依赖、后增加依赖。
🔸这可以理解为模型从记忆数据的表面形式,过渡到能够基于数据组合和生成新内容。
🔸任务性能与任务相关的n-gram数据对数量正相关,表明n-gram数据对推动了任务性能提高、记忆减少、泛化能力以及涌现能力的增强。
🔸LLM的能力来自于记忆和泛化之间的微妙平衡,当具有足够的与任务相关的预训练数据时,会为模型在下游任务提供有利帮助。
💡个人观点
论文通过扩展记忆的定义并检查LLM如何利用其预训练数据,提供了对这些模型内部机制的更深入理解,从而增强了模型的可解释性。