【大模型】更强的 LLaMA2 来了,开源可商用、与 ChatGPT 齐平

Meta于2023年7月19日推出了LLaMA2,这是一个70亿到700亿参数的预训练文本生成模型集合。经过RLHF优化的Llama-2-Chat在多项基准测试中超越开源聊天模型,与ChatGPT和PaLM相当。模型在超过2万亿tokens的数据集上训练,并在HuggingFace上提供。免费商用需注册申请。
摘要由CSDN通过智能技术生成

LLaMA2 简介

2023年7月19日:Meta 发布开源可商用模型 Llama 2。

Llama 2是一个预训练和微调的生成文本模型的集合,其规模从70亿到700亿个参数不等。

经过微调的LLMs称为Llama-2-Chat,针对对话用例进行了优化。Llama-2-Chat模型在我们测试的大多数基准测试中都优于开源聊天模型,在对有用性和安全性的人工评估中,与ChatGPT和PaLM等一些流行的封闭源代码模型不相上下。

LLaMA-2-chat 几乎是开源模型中唯一做了 RLHF 的模型。LLaMA-2 经过 5 轮 RLHF 后,在 Meta 自己的 reward 模型与 GPT-4 的评价下,都表现出了超过 ChatGPT 性能。

论文

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

GitHub

地址:https://github.com/facebookresearch/llama

huggingface

地址:https://huggingface.co/meta-llama

模型列表

在这里插入图片描述

Llama2-chat:
Llama2-chat-7B
Llama2-chat-13B
Llama2-chat-70B

其他模型请查看:https://huggingface.co/meta-llama

训练数据

  1. 在超过2万亿tokens数据集上训练。
  2. 微调数据包括公开可用的指令数据集,以及超过100万个新的人工注释示例。
  3. 预训练数据的截止日期为2022年9月

训练信息

  1. 所有模型都使用全局批量大小为4M tokens进行训练。

  2. 更大的700亿参数模型使用Grouped-Query Attention(GQA)来提高推理可扩展性。

  3. 训练时间为2023年1月至2023年7月。

  4. 是一个纯文本模型。

  5. 预训练过程中,在 A100-80GB 花费了33万GPU小时。

模型信息

在这里插入图片描述
上下文长度为 4K。

许可证

免费商用
需要注册申请

参考

1.https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
2.https://github.com/facebookresearch/llama

3.https://huggingface.co/meta-llama
4.Llama2-chat-7B
5.Llama2-chat-13B
6.Llama2-chat-70B

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值