上海人工智能实验室的书生·浦语大模型学习笔记(第二期第一课之上篇)

书生·浦语大模型全链路开源体系:探索AI的无限可能

在人工智能的发展道路上,大模型无疑成为了重要的突破口。从专用模型到通用大模型,它们在解决特定任务和应对多种任务、多种模态方面都展现出了强大的能力。本文记录书生浦语大模型的开源历程及其全链路开源体系。

一、书生浦语大模型开源历程

自2023年6月7日InternLM千亿参数语言大模型发布以来,书生浦语在开源的道路上不断迈进。以下是书生浦语大模型的开源历程:

  • 2023年7月6日,InternLM千亿参数大模型全面升级,支持8K语境、26种语言,并全面开源,免费商用。
  • 2023年8月14日,书生万卷1.0多模态预训练语料库开源发布。
  • 2023年8月21日,升级版对话模型InternLM-Chat-7B v1.1发布,同时开源智能体框架Lagent,支持从语言模型到智能体升级转换。
  • 2023年8月28日,InternLM千亿参数模型参数量升级到123B。
  • 2023年9月20日,增强型InternLM-20B开源,开源工具链全线升级。
  • 2024年1月17日,InternLM2开源。

二、书生浦语2.0(InternLM2)的体系

书生浦语2.0面向不同的使用需求,每个规格包含三个模型版本。按规格分类,有7B和20B两种模型;按使用需求分类,有InternLM2-Base、InternLM2和InternLM2-Chat。

三、书生浦语2.0主要亮点

书生浦语2.0在超长上下文、综合性能、对话和创作体验、工具调用能力以及数理能力和数据分析功能等方面都有显著优势。其中,InternLM2-Chat-20B在重点评测上甚至可以达到比肩ChatGPT(GPT3.5)的水平。

四、从模型到应用

书生浦语全链条开源开放体系包括数据、预训练、微调、部署、评测和应用等方面。这些环节的不断完善和优化,使得书生浦语大模型能够更好地服务于各种应用场景。

1、数据

书生·浦语大模型的数据集名为"书生·万卷",发布日期 2023 年 8 月 14 日。它是一个包含1.6万亿token的多语种高质量数据集,涵盖多种模态和任务。包含文本数据(50 亿个文档,数据量超 1TB),图像-文本数据集(超 2200 万个文件,数据量超 140GB),视频数据(超 1000 个文件,数据量超 900GB)。这个数据集为模型的训练提供了丰富的语言信息和知识基础。

2、预训练

书生·浦语大模型使用了InternLM-Train进行预训练。InternLM-Train是一个基于Transformer架构的预训练模型,它具有1040亿参数,通过在书生·万卷数据集上进行训练,使模型具备了强大的语言理解和生成能力。它支持从 8 卡到千卡训练,千卡训练效率达 92%;无缝接入 HuggingFace 等技术生态,支持各类轻量化技术。

3、微调

为了进一步提升模型的性能和适应特定任务,上海人工智能实验室开发了XTuner微调框架。XTuner可以根据不同的任务需求,对大模型进行微调,使其在特定领域或任务上表现更加优秀。它具有以下特点:

支持多种任务类型,如增量预训练,指令微调,工具类指令微调
支持全量参数、LoRA、QLoRA 等低成本微调,覆盖各类 SFT 场景
支持多种大语言模型的微调,如 InternLM, Llama, QWen, BaiChuan, ChatGLM,适配多种开源生态,支持加载 HuggingFace、ModelScope 模型或数据集
支持自动优化加速,如 Flash Attention, DeepSpeed ZeRO, Pytorch FSDP,使得开发者无需关注复杂的现存优化与计算加速细节
支持多种硬件,覆盖 NVIDIA 20 系以上所有显卡,最低只需 8GB 现存即可微调 7B 模型
支持多种数据格式,如 Alpaca, MOSS, OpenAI, Guanacao 等等。

4、部署

为了方便模型的使用和应用,上海人工智能实验室开发了LMDeploy部署框架。LMDeploy提供大模型在 GPU 上部署的全流程解决方案,包括模型轻量化、推理和服务。可以将大模型快速部署到各种计算平台上,实现模型的实时推理和应用。它具有以下特点:

接口支持:Python, GRPC, RESTful
量化支持:4bit 、8bit 
推理引擎:turbomind, pytorch
服务:openai-server, gradio, triton inference server
书生·浦语大模型包含三大类:

5、评测

上海人工智能实验室开发了OpenCompass评测框架,它包含80 套评测集,40 万道题目。OpenCompass可以对模型在多个任务和数据集上的表现进行全面评估,从而了解模型的优势和局限性。它具体包括6 大维度的评测集:

学科:初中考试、中国高考、大学考试、语言能力考试、职业资格考试
语言:字词释义、成语习语、语义相似、指代消解、翻译
知识:知识问答、多语种知识问答
理解:阅读理解、内容分析、内容总结
推理:因果推理、常识推理、代码推理、数学推理
安全:偏见、有害性、公平性、隐私性、真实性、合法性

6、应用

上海人工智能实验室还开发了Lagent多模态智能体工具箱和AgentLego多模态智能体工具箱。这些工具箱可以帮助开发者构建和训练多模态智能体,实现图文混合创作、多模态对话等应用场景。

Lagent 是一种轻量级智能体框架,它具有以下特点:

支持多种类型的智能体能力,如 ReAct, ReWoo, AutoGPT
灵活支持多种大语言模型,如 OpenAI 的 GPT-3.5/4, 上海人工智能实验室的 InternLM, Hugging Face 的 Transformers, meta 的 Llama
简单易拓展,支持丰富的工具,如 AI 工具(文生图、文生语音、图片描述),能力拓展(搜索,计算器,代码解释器), Rapid API(出行 API, 财经 API, 体育咨询 API)
AgentLego是一种多模态智能体工具箱,它具有以下特色:

丰富的工具集合,尤其是提供了大量视觉、多模态相关领域的前沿算法功能
支持多个主流智能体系统,如 Lagent, LangChain, Transformers Agent 等
灵活的多模态工具调用接口,可以轻松支持各类输入输出格式的工具函数
一键式远程工具部署,轻松使用和调试大模型智能体

五、展望未来

随着书生浦语全链路开源体系的不断完善,我们有理由相信,在未来的AI领域,书生浦语大模型将发挥更大的作用,助力我国人工智能技术的发展。

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值