1.前言
1.1 基础模型研究
2023 年,随着 LLM 技术的发展,中国模型研究机构的开源模型迎来了爆发式的增长:
- 2023 年 3 月,智谱 AI 首先在魔搭社区发布了 ChatGLM-6B 系列,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。现在,智谱 AI 的 ChatGLM-6B 已经更新到第三代,同时在多模态推出了 CogVLM 系列,以及支持视觉 agent 的 CogVLM,在代码领域推出了 CodeGeex 系列模型,同时在 agent 和 math 均有探索和开源的模型和技术。
- 2023 年 6 月,百川首先在魔搭社区发布了百川 - 7B 模型,baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。百川也是较早推出预训练模型的公司,并戏称给开发者提供更好的 “毛坯房”,让开发者更好的 “装修”,推动了国内基于预训练 base 模型的发展。后续