公开可用的通用大语言模型检查点

最新推荐文章于 2025-05-29 16:31:56 发布

什么都不太懂的程序员

最新推荐文章于 2025-05-29 16:31:56 发布

阅读量845

点赞数 18

分类专栏：大语言模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_43915730/article/details/137965455

版权

本文介绍了多个公开可用的通用大语言模型，包括Meta AI的LLaMA和LLaMA-2，智谱AI的ChatGLM，阿布扎比TII的Falcon，百川智能的Baichuan和Baichuan-2，上海人工智能实验室的InternLM和InternLM-2，阿里巴巴的Qwen，Mistral AI的Mistral和Mixtral，幻方公司的DeepSeek LLM，谷歌的Gemma，面壁智能的MiniCPM以及中国人民大学的YuLan-Chat。这些模型在自然语言处理任务上表现出色，涵盖代码生成、对话、知识问答等多个领域，并在不断迭代优化，推动了大语言模型领域的进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LLaMA 和 LLaMA-2

LLaMA 是 Meta AI 在 2023 年 2 月发布的一系列大语言模型，有 7B、13B、30B 和 65B 四种参数规模版本，是当时性能非常优异的开源模型之一，直到目前也仍然被广泛使用与对比。其中，13B 参数的版本在部分自然语言处理基准测试中超越了具有175B 参数的 GPT-3 模型。LLaMA 各个参数量版本都在超过 1T 词元的预训练语料上进行了训练，其中 65B 参数的模型版本在 2,048 张 80G 显存的 A100 GPU 上训练了近 21 天。由于对公众开放了模型权重且性能优秀，LLaMA 已经成为了最受欢迎的开源大语言模型之一，许多研究工作都是以其为基座模型进行微调或继续预训练，衍生出了众多变体模型，极大地推动了大语言模型领域的研究进展。2023 年 7 月，Meta AI 公开发布了 LLaMA-2，对第一代模型进行了综合升级。LLaMA-2 有 7B、13B、34B（未开源）和 70B 四种参数规模版本，并且可用于商用。相比于第一版LLaMA，LLaMA-2 扩充了预训练的词元量（达到了 2T），同时将模型的上下文长度翻了一倍（达到 4,096 个词元），并引入了分组查询注意力机制等技术来提升模型性能。此外，Meta AI 使用 LLaMA-2 作为基座模型，通过进一步的有监督微调、基于人类反馈的强化学习等技术对模型进行迭代优化，完整经历了“预训练-有监督微调-基于人类反馈的强化学习”这一训练流程，并发布了面向对话应用的微调系列模型 LLaMA-2 Chat（同样具有四种参数规模的版本）。LLaMA-2 Chat不仅在许多任务上具有更好的模型性能（例如代码生成、世界知识、阅读理解和数学推理），同时在应用中也更加安全。

ChatGLM

ChatGLM是智谱 AI 和清华大学联合开发的中英双语对话式模型，最早发布于2023年5月，并一直进行迭代优化，目前已经更新到了ChatGLM-3。ChatGLM 系列模型参数量都是 6B，具备流畅对话的能力且部署门槛低，在语义、数学、推理、代码、知识等不同角度的评测中都取得了优异表现。除此之外，该系列还开源了基础模型 ChatGLM3-6B-Base 、长文本对话式模型ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3-6B-128K。除了 ChatGLM 系列，智谱 AI 还致力于开发更强更大规模的 GLM-4。

最低0.47元/天解锁文章