以为前些天是在炒作llama3.1泄露,没想到Meta在24号凌晨直接开源了,包括三个不同参数规模的模型(8B、70B、405B),三个模型上下文长度都是128K,其中超大杯拥有4050亿参数,从评测指标来看必是最强开源模型了,在闭源模型中也属于第一梯队,与 GPT-4/Claude 3.5 同级。(其实405B模型对于中小企业来说最大的价值是蒸馏了,根本跑不动)
Hugging Face下载链接:https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
Meta官网下载链接:https://llama.meta.com/
小扎前段时间还说可能未来不会开源模型了,当时我以为LLM开源黄昏了,没想到现在直接来波王炸,还给写了一封"关于为什么他相信开源是前进的道路"的信,这波直接respect好吧。
Meta还发布了一本 92 页的 PDF技术报告,详细介绍了该模型。技术报告以及谷歌翻译后的中文版都放在文末链接了,有需要自取。
下面就对技术报告简单总结一下,还是推荐大家自己读一下,里面细节多(有挺多trick),毕竟这可是顶级企业花费巨大代价才有的经验,还免费共享出来,不学一波可说不过去了(这不白嫖)。
推上面Daniel Han大佬将该模型相较于以前Llama的变化总结为一张图: