2024年4月18日,Meta AI 正式宣布推出 Llama 3,这标志着开源大型语言模型(LLM)领域的又一重大进步。如同一颗重磅炸弹, Llama 3 以其卓越的性能和广泛的应用前景,预示着 AI 技术的新时代。
目前开源的是Llama3 8B 和 70B,趁着五一小长假,别人在外人从众,我在家偷偷魔改Llama3
一、模型性能
Llama3 由 Meta 最新公布的自建 24K GPU 集群上训练,使用超过 15T 的数据令牌,训练数据集是 Llama 2 的 7 倍,包括 4 倍的代码数据。
在上下文方面, Llama 3支持 8K 的上下文长度,是 Llama 2 容量的两倍,极大地提高了处理多步骤任务的能力。同时,该模型特别强调在理解、代码生成和指令跟随等复杂任务上的改进性能。
Llama3 8B 和 70B 参数的模型在多个行业基准测试中展示了最先进的性能,特别是在推理和编码任务上。
后期训练程序的改进大大降低了错误拒绝率,提高了对齐度,并增加了模型响应的多样性。推理、代码生成和指令跟踪等能力也有了很大提高,这使得 Llama 3 的可操控性更强。
二、模型架构
Llama 3 选择了相对标准的 Transformer 架构。与 Llama 2 相比,有几个关键的改进。Llama 3 使用了一个 128K 词库的标记化器,它能更有效地编码语言,从而大幅提高模型性能。
为了提高 Llama 3 模型的推理效率,Meta 采用了高效的分词器和分组查询注意力(GQA),以及在大量公开数据上的预训练,使得 Llama 3 在保持参数规模的同时,显著提升了模型性能。
同时,Meta 在 8192 个标记的序列上训练模型,使用掩码来确保自我注意力不会跨越文档边界。
三、训练数据
Llama 3 在超过 15T 的词库上进行了预训练,这些词库都是从公开来源收集的。训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。
同时,为了应对多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。
Meta 开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。
为了寻求在真实世界中的优化, Meta 开发了一个新的高质量的人类评估集。该评估集包含1,800个提示,涵盖12个关键用例:征求建议,头脑风暴,分类,封闭式问题回答,编码,创意写作,提取,居住在角色/人物,开放式问题回答,推理,重写和总结。
四、Llama 3 初体验
1、下载模型
conda install git-lfs
git-lfs install
git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct
2、环境配置
conda create -n llama3 python=3.10
conda activate llama3
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
3、 Web Demo 部署
streamlit run ~/Llama3-XTuner-CN/tools/internstudio_web_demo.py \
~/model/Meta-Llama-3-8B-Instruct
模型启动,开始对话,Llama3 is coming. Here you are!