Google最强开源大模型Gemma亮相!笔记本就能跑__笔记

2月21日,Google宣布开源了一个新的模型系列Gemma。这个模型使用了与它最强的Gemini同源的技术,并且在一系列的标准测试上优于几款今天最热门的开源模型。

根据Google官方的介绍,Gemma是一个大型语言模型,而非像Gemini那样是多模态的。它基于与Gemini相同的技术构建,主打开源和轻量级,免费可用、模型权重开源、允许商用,同时笔记本可跑。

1.版本

Gemma有2B和7B两个版本。7B版本参数量约78亿,面向GPU和TPU上的高效部署和开发;2B版本参数量约25亿,用于CPU和端侧应用程序。

两个版本都有预训练和指令微调版,可在Kaggle、Colab Notebook、Google Cloud中访问,而且支持JAX、PyTorch和TensorFlow通过原生Keras 3.0进行推理和监督式微调(SFT),适应多种开发需求和环境。

2.性能

Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中,性能超过了广泛使用的Llama-2 7B和13B模型。它在数学/科学和编程相关任务上,通常也超过了Mistral 7B模型的性能。

3.架构与参数

它基于Transformer解码器架构。Gemma-2B有18层,d_model为2048,而Gemma-7B有28层,d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。

相比于基础Transformer,Gemma进行了一些升级。

7B版本使用多头注意力机制,2B版本使用多查询注意力机制。

在每一层中使用旋转位置嵌入代替绝对位置嵌入;使用GeGLU激活函数替代标准ReLU非线性。同时对每一个子层的输入和输出都进行归一化。

Gemma 2B/7B分别使用了2T和6T token进行训练,主要来自网络文档、数学和代码,不过这些数据不是多模态的。

为了兼容,谷歌使用了Gemini的SentencePiece tokenizer子集,它可以分割数字,不删除额外的空格,并对未知token进行字节级编码。

4.其他

有意思的是,在Google晒出的成绩对比中,阿里千问背后的模型Qwen系列表现也很亮眼:

原文:

谷歌最强开源大模型亮相:Gemini技术下放,笔记本就能跑,可商用_澎湃号·湃客_澎湃新闻-The Paper

大动作不停,Google加入开源战局!低配版“Gemini ”Gemma来了!相当于OpenAI把GPT-3开源了|Google_新浪财经_新浪网 (sina.com.cn)

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值