Llama3.1技术报告简要解读--附PDF

泽也AI

已于 2024-09-19 12:47:56 修改

阅读量5.2k

点赞数 16

文章标签： transformer chatgpt 深度学习人工智能 llama

于 2024-07-29 00:44:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45965387/article/details/140675122

版权

以为前些天是在炒作llama3.1泄露，没想到Meta在24号凌晨直接开源了，包括三个不同参数规模的模型（8B、70B、405B），三个模型上下文长度都是128K，其中超大杯拥有4050亿参数，从评测指标来看必是最强开源模型了，在闭源模型中也属于第一梯队，与 GPT-4/Claude 3.5 同级。(其实405B模型对于中小企业来说最大的价值是蒸馏了，根本跑不动)

加载模型检查点所需的 GPU VRAM

加载模型检查点所需的 GPU VRAM

KVcache占用

KV cache

在这里插入图片描述

Hugging Face下载链接：https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
Meta官网下载链接：https://llama.meta.com/

小扎前段时间还说可能未来不会开源模型了，当时我以为LLM开源黄昏了，没想到现在直接来波王炸，还给写了一封"关于为什么他相信开源是前进的道路"的信，这波直接respect好吧。

Meta还发布了一本 92 页的 PDF技术报告，详细介绍了该模型。技术报告以及谷歌翻译后的中文版都放在文末链接了，有需要自取。

下面就对技术报告简单总结一下，还是推荐大家自己读一下，里面细节多（有挺多trick），毕竟这可是顶级企业花费巨大代价才有的经验，还免费共享出来，不学一波可说不过去了(这不白嫖)。

推上面Daniel Han大佬将该模型相较于以前Llama的变化总结为一张图：

在这里插入图片描述

在这里插入图片描述

张俊林画的模型结构图

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。