学妹辛苦整理的答案,熬夜也要看完:“基于 Llama 的模型都有哪些?有什么细微的差异?”

问题

基于 Llama 的模型都有哪些?有什么细微的差异?

Llama 生态

现在的模型架构基本都是 Llama 了。即使本来也有一些自己独创的结构,但是随着 Llama 生态环境的日趋统一,也都被迫向 Llama 低头了,不然没人适配你的特殊架构,自然就不带你玩了。比如 GLM 之前属于 Prefix LM,但是现在也变成 Llama 类似了。

虽然大家都长的很像,但是细微之处还是有些不太一样。今天就聊聊跟 Llama 很像的模型之间的细微差异。

Llama 目前有3代,先看一下 Llama 自己的变化,然后再以 Llama 为基准看一下其他模型与 Llama 的不同。

Llama 1 2 3

Llama 1

Llama 1 的架构是基于 GPT 来的,做了如下的升级:

  • 采用了 Pre-RMSNorm
  • 把 Gelu 改成了 SwiGLU
  • 位置编码改成了 RoPE

需要注意的是,这些内容都不是 Meta 首创的,但是 Meta 的 Llama 团队将他们组合到了一起并且取得了开源的 SOTA 效果。至于闭源的,那肯定早都用了。

其结构如下所示(Llama 7B):
在这里插入图片描述

Llama 2

Llama2 和 Llama1 结构基本相同,但是在更大的模型上(34B和70B) 采用了 grouped-query attention,主要是为了加速。

还有就是将上下文从 2048 扩展到了 4096.

Llama 3

Llama3 做了如下改变

  • GQA 变成标配。
  • 上下文 从 4096 扩展到了 8192
  • 词表大小从 32k 变成了 128k。前两代都是基于 SentencePiece 的,Llama 3 直接采用了 Openai 的 tiktoken。因为 tiktoken 用 rust 进行了底层的深度优化,效率比其他家要好很多。

Baichuan 系列

Baichuan 1

Baichuan 1 可以说是完全复用了 Llama 1 的架构。把权重的名字改一改可以完全用 baichuan 的代码来加载 llama 的权重。具体怎么修改的代码放在付费内容了,感兴趣可以看看。

有如下的差异:

  • llama 的 qkv 三个权重矩阵,在 baichuan 里变成了一个矩阵,相当于 qkv concat 起来了。
  • 扩充了 llama 的词表,加入了中文,词表大小为 64k,llama 1 为 32k。
  • 上下文为 4096, llama 1 为 2048.

Baichuan 2

Baichuan 2 的架构在 Llama 2 的基础上做了一些创新。

  • 在 lm_head 模块加了一个 norm,论文中说是可以提升效果
  • 在 13B 的模型上采用了 Alibi 位置编码。
  • 词表从 64k 扩充到了 125,696

Baichuan 3 & 4

没有开源。

Yi

yi 的架构和 llama2 一样。需要注意的是 llama2 只在更大的模型上使用了 GQA, 但是 Yi 在所有系列都用了。

在经历过一些开源协议的质疑之后,现在 yi 的模型可以用 LlamaForCausalLM 加载了

Qwen

Qwen 1

Qwen 1 和 Llama 1 的区别如下:

  • qkv 矩阵和 baichuan 类似,变成了一个 concat 后的大矩阵。
  • 这个 qkv 的矩阵有 bias,这一点和大多数模型都不一样。这是因为苏剑林的一篇文章,认为加入 bias 可以提高模型的外推能力:https://spaces.ac.cn/archives/9577
  • 词表大小为:151936
  • 训练的长度是2048, 但是通过一些外推手段来扩展长度。

Qwen 1.5

其实 Qwen 1.5 开始,比起 Llama 就多了很多自己的东西,只不过 Qwen 1 仍然和 Llama 很相似,所以这里也一并写一下吧。

1.5 的版本更像是在 1 的基础上做了很多扩展,重点如下:

  • 扩展长度到 32K
  • sliding window attention 和 full attention 的混合
  • 32B 的模型尝试了使用 GQA
  • tokenizer 针对代码做了一些优化。

Qwen 2

Qwen 2 包含了 1.5 的所有改变。和 llama 2 的区别:

  • qkv 矩阵有 bias
  • 全尺寸使用了 GQA
  • 上下文扩展为 32K
  • 采用了 Dual Chunk Attention with YARN
  • 还有一点就是在同等尺寸上,Qwen 2 相对于 1.5 和 1,将 MLP 模块的 hidden size 变大了,其他模块的 hidden size 变小了。以提高模型的表达的记忆能力。
  • 词表又扩充了一点点。

ChatGLM

GLM 最开始的时候采用的是 Prefix LM,但是后来也都改成 Decoder Only LM 了。

所以虽然 GLM 要早于 Llama,但是最后还是和 Llama 变得很像。上面提到的其实最像 Qwen 1.

所以也说一下与 Llama 的区别:

  • qkv 矩阵和 baichuan 类似,变成了一个 concat 后的大矩阵。
  • 这个 qkv 的矩阵有 bias。

MiniCPM

目前已经转战 size 略小一点的模型,也取得了很不错的效果。

我粗看其架构应该和 llama 3 差不多,区别:

  • 采用了 Weight Tying
  • 整体框架采用了 deep and thin 的结构。

Gemma

我要说 Gemma 是基于 Llama 的,Google 肯定是不承认的。

Google 有不承认的底气,毕竟 Transformers 是人家搞出来的, GLU 也是人家的,MQA 和 GQA 也是人家搞出来的。

最终发现 Llama 中除了 Pre-RMSNorm 和 RoPE,其他都是 Google 的成果。只能说 Google 真的是 “斗宗强者,恐怖如斯”。

但是最后的架构和 Llama 其实还是很像。区别如下:

Gemma 1

  • MLP 的激活采用了 GeGLU 而不是 SwiGLU
  • 采用了 MHA。但是 2 代还是换成了 GQA
  • 使用了 Weight Tying

Gemma 2

  • MLP 的激活采用了 GeGLU 而不是 SwiGLU
  • 融合了 Local and Global Attention
  • 使用了 Weight Tying

其他

至于 Mistral 和 DeepseekV2 和 Llama 还是有些不太一样,所以这次就先不介绍了。

模型可能有遗漏,后续再慢慢补充:)也欢迎评论区指出错误。

— END—

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值