问题
基于 Llama 的模型都有哪些?有什么细微的差异?
Llama 生态
现在的模型架构基本都是 Llama 了。即使本来也有一些自己独创的结构,但是随着 Llama 生态环境的日趋统一,也都被迫向 Llama 低头了,不然没人适配你的特殊架构,自然就不带你玩了。比如 GLM 之前属于 Prefix LM,但是现在也变成 Llama 类似了。
虽然大家都长的很像,但是细微之处还是有些不太一样。今天就聊聊跟 Llama 很像的模型之间的细微差异。
Llama 目前有3代,先看一下 Llama 自己的变化,然后再以 Llama 为基准看一下其他模型与 Llama 的不同。
Llama 1 2 3
Llama 1
Llama 1 的架构是基于 GPT 来的,做了如下的升级:
- 采用了 Pre-RMSNorm
- 把 Gelu 改成了 SwiGLU
- 位置编码改成了 RoPE
需要注意的是,这些内容都不是 Meta 首创的,但是 Meta 的 Llama 团队将他们组合到了一起并且取得了开源的 SOTA 效果。至于闭源的,那肯定早都用了。
其结构如下所示(Llama 7B):
Llama 2
Llama2 和 Llama1 结构基本相同,但是在更大的模型上(34B和70B) 采用了 grouped-query attention,主要是为了加速。
还有就是将上下文从 2048 扩展到了 4096.
Llama 3
Llama3 做了如下改变
- GQA 变成标配。
- 上下文 从 4096 扩展到了 8192
- 词表大小从 32k 变成了 128k。前两代都是基于 SentencePiece 的,Llama 3 直接采用了 Openai 的 tiktoken。因为 tiktoken 用 rust 进行了底层的深度优化,效率比其他家要好很多。
Baichuan 系列
Baichuan 1
Baichuan 1 可以说是完全复用了 Llama 1 的架构。把权重的名字改一改可以完全用 baichuan 的代码来加载 llama 的权重。具体怎么修改的代码放在付费内容了,感兴趣可以看看。
有如下的差异:
- llama 的 qkv 三个权重矩阵,在 baichuan 里变成了一个矩阵,相当于 qkv concat 起来了。
- 扩充了 llama 的词表,加入了中文,词表大小为 64k,llama 1 为 32k。
- 上下文为 4096, llama 1 为 2048.
Baichuan 2
Baichuan 2 的架构在 Llama 2 的基础上做了一些创新。
- 在 lm_head 模块加了一个 norm,论文中说是可以提升效果
- 在 13B 的模型上采用了 Alibi 位置编码。
- 词表从 64k 扩充到了 125,696
Baichuan 3 & 4
没有开源。
Yi
yi 的架构和 llama2 一样。需要注意的是 llama2 只在更大的模型上使用了 GQA, 但是 Yi 在所有系列都用了。
在经历过一些开源协议的质疑之后,现在 yi 的模型可以用 LlamaForCausalLM 加载了。
Qwen
Qwen 1
Qwen 1 和 Llama 1 的区别如下:
- qkv 矩阵和 baichuan 类似,变成了一个 concat 后的大矩阵。
- 这个 qkv 的矩阵有 bias,这一点和大多数模型都不一样。这是因为苏剑林的一篇文章,认为加入 bias 可以提高模型的外推能力:https://spaces.ac.cn/archives/9577
- 词表大小为:151936
- 训练的长度是2048, 但是通过一些外推手段来扩展长度。
Qwen 1.5
其实 Qwen 1.5 开始,比起 Llama 就多了很多自己的东西,只不过 Qwen 1 仍然和 Llama 很相似,所以这里也一并写一下吧。
1.5 的版本更像是在 1 的基础上做了很多扩展,重点如下:
- 扩展长度到 32K
- sliding window attention 和 full attention 的混合
- 32B 的模型尝试了使用 GQA
- tokenizer 针对代码做了一些优化。
Qwen 2
Qwen 2 包含了 1.5 的所有改变。和 llama 2 的区别:
- qkv 矩阵有 bias
- 全尺寸使用了 GQA
- 上下文扩展为 32K
- 采用了 Dual Chunk Attention with YARN
- 还有一点就是在同等尺寸上,Qwen 2 相对于 1.5 和 1,将 MLP 模块的 hidden size 变大了,其他模块的 hidden size 变小了。以提高模型的表达的记忆能力。
- 词表又扩充了一点点。
ChatGLM
GLM 最开始的时候采用的是 Prefix LM,但是后来也都改成 Decoder Only LM 了。
所以虽然 GLM 要早于 Llama,但是最后还是和 Llama 变得很像。上面提到的其实最像 Qwen 1.
所以也说一下与 Llama 的区别:
- qkv 矩阵和 baichuan 类似,变成了一个 concat 后的大矩阵。
- 这个 qkv 的矩阵有 bias。
MiniCPM
目前已经转战 size 略小一点的模型,也取得了很不错的效果。
我粗看其架构应该和 llama 3 差不多,区别:
- 采用了 Weight Tying
- 整体框架采用了 deep and thin 的结构。
Gemma
我要说 Gemma 是基于 Llama 的,Google 肯定是不承认的。
Google 有不承认的底气,毕竟 Transformers 是人家搞出来的, GLU 也是人家的,MQA 和 GQA 也是人家搞出来的。
最终发现 Llama 中除了 Pre-RMSNorm 和 RoPE,其他都是 Google 的成果。只能说 Google 真的是 “斗宗强者,恐怖如斯”。
但是最后的架构和 Llama 其实还是很像。区别如下:
Gemma 1
- MLP 的激活采用了 GeGLU 而不是 SwiGLU
- 采用了 MHA。但是 2 代还是换成了 GQA
- 使用了 Weight Tying
Gemma 2
- MLP 的激活采用了 GeGLU 而不是 SwiGLU
- 融合了 Local and Global Attention
- 使用了 Weight Tying
其他
至于 Mistral 和 DeepseekV2 和 Llama 还是有些不太一样,所以这次就先不介绍了。
模型可能有遗漏,后续再慢慢补充:)也欢迎评论区指出错误。
— END—
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。