五一假期Llama 3之初体验不完全攻略(Part 1)

2024年4月18日,Meta AI 正式宣布推出 Llama 3,这标志着开源大型语言模型(LLM)领域的又一重大进步。如同一颗重磅炸弹, Llama 3 以其卓越的性能和广泛的应用前景,预示着 AI 技术的新时代。

目前开源的是Llama3 8B 和 70B,趁着五一小长假,别人在外人从众,我在家偷偷魔改Llama3

一、模型性能

        Llama3 由 Meta 最新公布的自建 24K GPU 集群上训练,使用超过 15T 的数据令牌,训练数据集是 Llama 2 的 7 倍,包括 4 倍的代码数据。
        在上下文方面, Llama 3支持 8K 的上下文长度,是 Llama 2 容量的两倍,极大地提高了处理多步骤任务的能力。同时,该模型特别强调在理解、代码生成和指令跟随等复杂任务上的改进性能。
        Llama3 8B 和 70B 参数的模型在多个行业基准测试中展示了最先进的性能,特别是在推理和编码任务上。
        后期训练程序的改进大大降低了错误拒绝率,提高了对齐度,并增加了模型响应的多样性。推理、代码生成和指令跟踪等能力也有了很大提高,这使得 Llama 3 的可操控性更强。

二、模型架构

        Llama 3 选择了相对标准的 Transformer 架构。与 Llama 2 相比,有几个关键的改进。Llama 3 使用了一个 128K 词库的标记化器,它能更有效地编码语言,从而大幅提高模型性能。
        为了提高 Llama 3 模型的推理效率,Meta 采用了高效的分词器和分组查询注意力(GQA),以及在大量公开数据上的预训练,使得 Llama 3 在保持参数规模的同时,显著提升了模型性能。
        同时,Meta 在 8192 个标记的序列上训练模型,使用掩码来确保自我注意力不会跨越文档边界。

三、训练数据

        Llama 3 在超过 15T 的词库上进行了预训练,这些词库都是从公开来源收集的。训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。
        同时,为了应对多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。
        Meta 开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。
        为了寻求在真实世界中的优化, Meta 开发了一个新的高质量的人类评估集。该评估集包含1,800个提示,涵盖12个关键用例:征求建议,头脑风暴,分类,封闭式问题回答,编码,创意写作,提取,居住在角色/人物,开放式问题回答,推理,重写和总结。

四、Llama 3 初体验

1、下载模型

conda install git-lfs
git-lfs install

git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct

2、环境配置

conda create -n llama3 python=3.10
conda activate llama3
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

3、 Web Demo 部署

streamlit run ~/Llama3-XTuner-CN/tools/internstudio_web_demo.py \
  ~/model/Meta-Llama-3-8B-Instruct

模型启动,开始对话,Llama3 is coming.  Here you are! 

  • 15
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值