模型概述
模型:Llama 4系列模型由Meta开发,包括Llama 4 Scout和Llama 4 Maverick两个模型。
特点:这是原生的多模态AI模型,能够处理文本和多模态体验,采用专家混合(MoE)架构,在文本和图像理解方面表现卓越。
模型架构
类型:自回归语言模型。
架构:使用专家混合(MoE)架构,并采用早期融合实现原生多模态。
模型参数与训练数据
参数规模:Llama 4 Scout和Llama 4 Maverick都拥有17B激活参数,总参数量分别为109B和400B。
训练数据:包括公开可用的许可数据和来自Meta产品与服务的信息,如Instagram和Facebook上的公开分享帖子以及人们与Meta AI的互动。预训练数据截止到2024年8月。
输入输出模态与上下文长度
输入模态:支持多语言文本和图像。
输出模态:支持多语言文本和代码。
上下文长度:Llama 4 Scout为10M~40T,Llama 4 Maverick为1M~22T。
支持语言
主要支持语言:阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。
其他语言:预训练包括200种语言,开发者可在遵守Llama 4社区许可协议和可接受使用政策的前提下,对其他语言进行微调。
不支持中文???差评!!!
发布日期与状态
发布日期:2025年4月5日。
状态:这是一个基于离线数据集训练的静态模型,未来可能会根据社区反馈发布经过调整的模型版本。
许可证
许可证类型:Llama 4社区许可证协议,可在GitHub上查看。
使用案例
指令调整模型:适用于类似助手的聊天和视觉推理任务。
预训练模型:可适应自然语言生成任务。
视觉能力:优化用于视觉识别、图像推理、图像描述和回答有关图像的一般问题。
其他应用:支持利用其输出来改进其他模型,包括合成数据生成和蒸馏。
超出范围的使用
法律与法规:任何违反适用法律或法规(包括贸易合规法律)的使用。
其他限制:任何其他被可接受使用政策和Llama 4社区许可证禁止的使用方式。
语言与能力:超出本文档明确提及的支持语言或能力的使用。
使用方法
安装要求:需要安装transformers库,或使用pip install -U transformers进行升级。
代码示例:提供了如何使用transformers库中的AutoProcessor和Llama4ForConditionalGeneration类来处理图像和文本输入,并生成输出的代码示例。
训练因素与能源使用
训练库与基础设施:使用自定义训练库、Meta的自定义GPU集群和生产基础设施进行预训练,微调、量化、注释和评估也在生产基础设施上进行。
能源使用:预训练总共使用了7.38M GPU小时的计算资源,使用的硬件为H100 80GB(TDP为700W)。Meta自2020年以来在全球运营中保持净零温室气体排放,并100%匹配其电力使用与清洁和可再生能源,因此训练的市场基础温室气体排放为0吨CO2eq。
性能指标
预训练模型:在多个基准测试中,如MMLU、MATH、MBPP、TydiQA等,Llama 4 Scout和Maverick相较于之前的Llama 3.1和3.1 405B模型都有显著提升。
指令调整模型:在图像推理、数学知识、图像理解、编码等多个领域的基准测试中表现出色。
量化与安全措施
量化:Llama 4 Scout以BF16权重发布,可通过on-the-fly int4量化在单个H100 GPU上运行;Llama 4 Maverick以BF16和FP8量化权重发布,FP8量化权重可在单个H100 DGX主机上运行。
安全措施:采用三管齐下的策略来管理风险,包括使开发者能够部署安全灵活的体验、保护开发者免受恶意用户利用Llama能力造成伤害、为社区提供防止模型滥用的保护。
社区资源与支持
系统级保护:提供如Llama Guard、Prompt Guard和Code Shield等系统级保护工具,帮助开发者在部署Llama模型时实现正确的帮助性-安全性平衡。
评估与红队测试:对Llama模型进行常见使用案例和特定能力的评估,以及定期的红队测试,以发现风险并改进基准测试和安全调整数据集。
社区参与:鼓励社区采用标准化的安全和内容评估方法,如MLCommons Proof of Concept评估,并开源Trust工具供社区使用。
Llama影响赠款计划:设立该计划以识别和支持使用Meta的Llama模型在教育、气候和开放创新三个领域带来社会利益的最引人注目的应用。
考虑因素与限制
自由表达与用户自主性:Llama 4基于自由表达的价值观,旨在帮助人们探索、辩论和创新。它尊重用户的自主性,使他们能够选择如何体验、互动和构建AI。
风险与安全测试:作为新技术,Llama 4的使用存在风险。到目前为止进行的测试并未涵盖所有场景,因此在部署Llama 4模型的任何应用之前,开发者应针对其特定应用进行安全测试和调整。