书生·浦语大模型训练营第二期读书笔记：(一)全链路开源开放体系

最新推荐文章于 2024-08-15 01:55:01 发布

_小菜包_

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量256

点赞数 5

文章标签： python agi chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaocaibao123/article/details/139117641

版权

大模型成为发展通用人工智能的重要途径

专用模型

通用模型

情绪识别、命名主题识别

书生·浦语大模型

InternLM 千亿参数语言大模型
书生·万卷1.0 多模态预训练语料库
InternLM-7B模型
模型InternLM-Chat-78
- 开源智能体框架Lagent
- 70亿模型参数
- 10000亿训练token数据
- 长语境能力、8k语境窗口长度
- 通用工具调用能力，支持多种工具调用模板
增强版InternLM-20B
- 200亿参数量
- 深而窄的结构，降低推理计算量但是提高了推理能力
- 4k训练语境长度，推理时可外推至16k
InternLM-123B
- 1230亿模型参数
- 极强的推理能力、全面的知识覆盖面、超强解释能力与对话能力
- 准确的API调用能力，可实现各类Agent

书生·浦语全链条开放体系

数据
- 书生·万卷
预训练
- InternLM-Train
微调
- XTuner
部署
- LMDeploy
评测
- OpenCompass
应用
- Lagent AgentLego

全链条开放体系|部署

大模型特点

内存开销大

庞大的参数两
采用自回归生成token，需要缓存k/v

动态Shape

请求数不固定
token逐个生成，且数量不定

模型结构相对简单

transformer结构，大部分是decoder-only

技术挑战

设备

低存储设备(消费级显卡、移动端等)如何部署

推理

如何加速token的生成速度
如何解决动态shape，让推理可以不间断
如何有效管理和利用内存

服务

提升系统整体吞吐量
降低请求的平均相应速度

部署

技术点

模型并行
低比特量化
Atention优化
计算和访存优化
Continuous Batching

在这里插入图片描述

LMDeploy提供大模型在GPU上部署的全流程解决方案，包括模型轻量化、推理和服务

接口
- Python
- gRPC
- RESTful
轻量化
- 4bit权重
- 8bit k/v
推理引擎
- turbomind
- pytorch
服务
- openai-server
- gradio
- triton inference server

高效推理引擎

持续批处理技巧
深度优化的低比特运算
模型并行
高效的k/v缓存管理机制

完备易用的工具链

量化、推理、服务全流程
无缝对接OpenCompass评测推理精度
和OpenAI接口高度兼容的API server

大语言模型的局限性

最新信息和知识的获取
回复的可靠性
数学计算
工具使用和交互

在这里插入图片描述

多模态智能体工具箱 AgentLego

丰富的工具集合，尤其是提供了大量视觉、多模态相关领域的前言算法功能
支持多个1主流智能体系统，如LangChain，Transformers Agent，Lagent等
灵活的多模态工具调用接口，可以轻松支持各类输入输出格式的工具函数
一键式远程工具部署，轻松使用和调试大模型智能体

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语大模型训练营第二期读书笔记：(一)全链路开源开放体系

情绪识别、命名主题识别。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。