学妹辛苦整理的答案，熬夜也要看完：“基于 Llama 的模型都有哪些？有什么细微的差异？”

本文链接：https://blog.csdn.net/xxue345678/article/details/142411603

基于 Llama 的模型都有哪些？有什么细微的差异？

现在的模型架构基本都是 Llama 了。即使本来也有一些自己独创的结构，但是随着 Llama 生态环境的日趋统一，也都被迫向 Llama 低头了，不然没人适配你的特殊架构，自然就不带你玩了。比如 GLM 之前属于 Prefix LM，但是现在也变成 Llama 类似了。

虽然大家都长的很像，但是细微之处还是有些不太一样。今天就聊聊跟 Llama 很像的模型之间的细微差异。

Llama 目前有3代，先看一下 Llama 自己的变化，然后再以 Llama 为基准看一下其他模型与 Llama 的不同。

Llama 1 的架构是基于 GPT 来的，做了如下的升级：

需要注意的是，这些内容都不是 Meta 首创的，但是 Meta 的 Llama 团队将他们组合到了一起并且取得了开源的 SOTA 效果。至于闭源的，那肯定早都用了。

其结构如下所示(Llama 7B)：
在这里插入图片描述

Llama2 和 Llama1 结构基本相同，但是在更大的模型上（34B和70B）采用了 grouped-query attention，主要是为了加速。

还有就是将上下文从 2048 扩展到了 4096.

Llama3 做了如下改变

GQA 变成标配。
上下文从 4096 扩展到了 8192
词表大小从 32k 变成了 128k。前两代都是基于 SentencePiece 的，Llama 3 直接采用了 Openai 的 tiktoken。因为 tiktoken 用 rust 进行了底层的深度优化，效率比其他家要好很多。

Baichuan 1 可以说是完全复用了 Llama 1 的架构。把权重的名字改一改可以完全用 baichuan 的代码来加载 llama 的权重。具体怎么修改的代码放在付费内容了，感兴趣可以看看。

有如下的差异：

Baichuan 2 的架构在 Llama 2 的基础上做了一些创新。

没有开源。

yi 的架构和 llama2 一样。需要注意的是 llama2 只在更大的模型上使用了 GQA, 但是 Yi 在所有系列都用了。

在经历过一些开源协议的质疑之后，现在 yi 的模型可以用 LlamaForCausalLM 加载了。

Qwen 1 和 Llama 1 的区别如下：

qkv 矩阵和 baichuan 类似，变成了一个 concat 后的大矩阵。
这个 qkv 的矩阵有 bias，这一点和大多数模型都不一样。这是因为苏剑林的一篇文章，认为加入 bias 可以提高模型的外推能力：https://spaces.ac.cn/archives/9577
词表大小为：151936
训练的长度是2048，但是通过一些外推手段来扩展长度。

其实 Qwen 1.5 开始，比起 Llama 就多了很多自己的东西，只不过 Qwen 1 仍然和 Llama 很相似，所以这里也一并写一下吧。

1.5 的版本更像是在 1 的基础上做了很多扩展，重点如下：

Qwen 2 包含了 1.5 的所有改变。和 llama 2 的区别：

qkv 矩阵有 bias
全尺寸使用了 GQA
上下文扩展为 32K
采用了 Dual Chunk Attention with YARN
还有一点就是在同等尺寸上，Qwen 2 相对于 1.5 和 1，将 MLP 模块的 hidden size 变大了，其他模块的 hidden size 变小了。以提高模型的表达的记忆能力。
词表又扩充了一点点。