人工智能咨询培训老师叶梓 转载标明出处
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
更多分享,关注视频号(直播分享):sphuYAMr0pGTk27 抖音号:44185842659
Gemma 3是由 Google DeepMind 团队推出的大模型家族中的新成员,它在 Gemma 2 的基础上进行了多项改进和扩展。它是一款轻量级、高性能的多模态 AI 模型,单个 GPU 就能跑,轻松驾驭文本、图像、短视频。有更长的上下文处理能力(至少 12.8 万 tokens)以及更广泛的多语言支持。参数规模有 1B、4B、12B 和 27B 四种,开发者可依硬件和性能需求灵活选择,即便 270 亿参数的版本,也能在单块 GPU 上高效运行。它支持 35 种语言,满足各种场景需求。
Gemma 3 采用了与前代相似的解码器仅限的 Transformer 架构,但在局部和全局自注意力层的配置上进行了调整。具体来说,Gemma 3 采用了 5:1 的局部与全局层交替模式,即每 5 个局部层之间插入 1 个全局层,且局部层的跨度仅为 1024 tokens。这种设计有效减少了长上下文推理时的 KV 缓存内存占用,解决了长上下文导致 KV 缓存爆炸的问题。例如,在 图 5 中展示了不同局部与全局层配置下模型与 KV 缓存的内存占用情况,可以看到采用 5:1 配置且局部层跨度为 1024 的情况下,KV 缓存的内存占用显著降低。
此外,Gemma 3 的上下文长度提升至 128K tokens(1B 模型为 32K),通过增加全局自注意力层的 RoPE 基频并采用位置插值方法,实现了对长上下文的有效处理。在 图 7 中展示了不同上下文长度下的困惑度表现,证明了模型在扩展到 128K 上下文时仍能保持良好的性能。
Gemma 3 引入了多模态理解能力,兼容定制版的 SigLIP 视觉编码器。语言模型将图像视为由 SigLIP 编码的软 token 序列,并将视觉嵌入压缩为固定大小的 256 个向量,以降低图像处理的推理成本。此外,Gemma 3 还采用了 “平移与扫描”(Pan & Scan,P&S)方法,以适应不同分辨率和宽高比的图像。在 表 8 中对比了使用 P&S 方法前后的性能,结果显示 P&S 方法显著提升了模型在涉及图像文本阅读等任务上的表现。
Gemma 3 的预训练采用了与 Gemma 2 类似的知识蒸馏方法,并在架构设计上进行了调整。训练数据中增加了多语言数据的比例,并引入了图像理解能力。此外,Gemma 3 还采用了 Quantization Aware Training(QAT) 技术,提供了不同标准格式的量化版本模型,以适应不同的硬件需求。在 表 3 中展示了不同量化格式下模型的内存占用情况,量化后的模型在保持性能的同时显著降低了内存需求。
在后训练阶段,Gemma 3 采用了改进的知识蒸馏方法和基于强化学习的微调阶段,重点提升了数学、推理、对话以及多语言能力。通过使用多种奖励函数,模型在帮助性、数学、编码、推理、指令遵循和多语言能力上均得到了显著提升,同时最小化了模型的有害性。
在 表 6 中展示了 Gemma 3 指令微调模型与其他版本模型在多种基准测试上的性能对比。Gemma 3 在多个领域表现出色,尤其是在多语言和 STEM 相关任务上。例如,在 图 2 中通过多个标准基准测试作为探测器,比较了 Gemma 2 和 Gemma 3 预训练模型在科学、代码、事实性、多语言、推理和视觉等通用能力上的表现,Gemma 3 在大多数类别上都有所提升。
在 表 5 中展示了 Gemma 3 27B 指令微调模型在 LMSYS Chatbot Arena 中的性能,该模型在人类盲测对比评估中获得了较高的 Elo 分数,排名进入前十,超过了其他一些规模更大的非思考型开放模型。
Gemma 3 在开发过程中注重责任、安全和隐私保护。通过在训练数据中进行安全过滤,以及在微调阶段采用 SFT 和 RLHF 技术,引导模型远离不良行为。此外,Gemma 3 还通过内部安全流程进行了多项基线保障评估,以确保模型在发布时的风险可控。
Hugging Face:https://huggingface.co/blog/gemma3
Kaggle:https://www.kaggle.com/models/google/gemma-3
论文:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
Ollama:https://ollama.com/library/gemma3