LLM预训练和后训练新范式_预训练后训练-CSDN博客

本文链接：https://blog.csdn.net/yXIAOyu_/article/details/141323373

大型语言模型（LLM）的发展已经取得了长足的进步，从早期的GPT模型到我们今天拥有的复杂的开放权重LLM。最初，LLM的训练过程仅集中于预训练，但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和对齐，这些是由ChatGPT普及的。

自ChatGPT首次发布以来，训练方法已经发生了变化。在本文中，我回顾了最近几个月在预训练和后训练方法论方面的最新进展。

本文讨论的新预训练和后训练方法论，概述了LLM开发和训练流程

每个月都有数百篇LLM论文提出新技术和方法。然而，实际上验证什么方法有效的最佳途径之一是查看最新最先进模型的预训练和后训练流程。幸运的是，在过去的几个月里，有四个主要的新LLM发布，并附有相对详细的技术报告。

在本文中，我将重点介绍以下模型的预训练和后训练流程：

阿里巴巴的 Qwen 2
苹果智能基础语言模型
谷歌的 Gemma 2
Meta AI 的 Llama 3.1

这些模型是根据各自技术论文在 http://arxiv.org/ 上的发表日期顺序排列的，恰好也与它们的字母顺序一致。

1. 阿里巴巴的 Qwen 2

首先介绍一下 https://arxiv.org/abs/2407.10671，这是一个非常强大的LLM模型系列，与其他主要的LLM竞争。然而，由于某些原因，它比Meta AI、微软和谷歌的开放权重模型少受欢迎。

1.1 Qwen 2 概述

在查看 https://arxiv.org/abs/2407.10671中讨论的预训练和后训练方法之前，我们先简要总结一些核心规格。

Qwen 2 模型有5种类型。有4个常规（密集）LLM，参数量分别为5亿、15亿、70亿和720亿。此外，还有一个57亿参数的专家混合模型，其中有14亿参数同时被激活。（由于架构细节不是这次的重点，我不会深入讨论专家混合模型；简而言之，这类似于Mistral AI的Mixtral，只是它有更多的活跃专家。高级概述请参见我的 https://magazine.sebastianraschka.com/p/research-papers-in-january-2024 中的 https://magazine.sebastianraschka.com/i/141130005/mixtral-architecture 部分。）

Qwen 2 LLM的一个突出特点是其在30种语言中的良好多语言能力。它们还拥有惊人的151,642个词汇量（作为参考，Llama 2使用32k词汇量，Llama 3.1使用128k词汇量）；根据经验，词汇量增加2倍会减少输入词数2倍，因此LLM可以在同一输入中容纳更多词。它特别有助于多语言数据和编码，以覆盖标准英语词汇之外的词语。

下面是与其他LLM的简要MMLU基准测试比较。（请注意，MMLU是一个多项选择的基准测试，因此有其局限性；然而，它仍然是报告LLM性能的最流行方法之一。）

最新开放权重模型的MMLU基准测试得分（值越高越好）。我从每个模型的官方研究论文中收集了这些得分用于此图表。