书生·浦语大模型训练营第二期读书笔记:(一)全链路开源开放体系

大模型成为发展通用人工智能的重要途径

专用模型

通用模型

情绪识别、命名主题识别

书生·浦语大模型

  • InternLM 千亿参数语言大模型
  • 书生·万卷1.0 多模态预训练语料库
  • InternLM-7B模型
  • 模型InternLM-Chat-78
    • 开源智能体框架Lagent
    • 70亿模型参数
    • 10000亿训练token数据
    • 长语境能力、8k语境窗口长度
    • 通用工具调用能力,支持多种工具调用模板
  • 增强版InternLM-20B
    • 200亿参数量
    • 深而窄的结构,降低推理计算量但是提高了推理能力
    • 4k训练语境长度,推理时可外推至16k
  • InternLM-123B
    • 1230亿模型参数
    • 极强的推理能力、全面的知识覆盖面、超强解释能力与对话能力
    • 准确的API调用能力,可实现各类Agent

书生·浦语全链条开放体系

  • 数据

    • 书生·万卷
  • 预训练

    • InternLM-Train
  • 微调

    • XTuner
  • 部署

    • LMDeploy
  • 评测

    • OpenCompass
  • 应用

    • Lagent AgentLego

全链条开放体系|部署

大模型特点
内存开销大
  • 庞大的参数两
  • 采用自回归生成token,需要缓存k/v
动态Shape
  • 请求数不固定
  • token逐个生成,且数量不定
模型结构相对简单
  • transformer结构,大部分是decoder-only
技术挑战
设备
  • 低存储设备(消费级显卡、移动端等)如何部署
推理
  • 如何加速token的生成速度
  • 如何解决动态shape,让推理可以不间断
  • 如何有效管理和利用内存
服务
  • 提升系统整体吞吐量
  • 降低请求的平均相应速度
部署
技术点
  • 模型并行
  • 低比特量化
  • Atention优化
  • 计算和访存优化
  • Continuous Batching

在这里插入图片描述

LMDeploy提供大模型在GPU上部署的全流程解决方案,包括模型轻量化、推理和服务

  • 接口
    • Python
    • gRPC
    • RESTful
  • 轻量化
    • 4bit权重
    • 8bit k/v
  • 推理引擎
    • turbomind
    • pytorch
  • 服务
    • openai-server
    • gradio
    • triton inference server
高效推理引擎
  • 持续批处理技巧
  • 深度优化的低比特运算
  • 模型并行
  • 高效的k/v缓存管理机制
完备易用的工具链
  • 量化、推理、服务全流程
  • 无缝对接OpenCompass评测推理精度
  • 和OpenAI接口高度兼容的API server

大语言模型的局限性

  • 最新信息和知识的获取
  • 回复的可靠性
  • 数学计算
  • 工具使用和交互

在这里插入图片描述

多模态智能体工具箱 AgentLego

  • 丰富的工具集合,尤其是提供了大量视觉、多模态相关领域的前言算法功能
  • 支持多个1主流智能体系统,如LangChain,Transformers Agent,Lagent等
  • 灵活的多模态工具调用接口,可以轻松支持各类输入输出格式的工具函数
  • 一键式远程工具部署,轻松使用和调试大模型智能体
  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值