一、大模型成为热门(archive上的LM和LLM)
二、大模型成为发展通用人工智能的重要途径
专用模型————>通用模型
(针对特定任务,一个模型解决一个问题)————>(一个模型应对多种任务、多种模态)
eg:2006年深度学习理论突破,2011大规模语音识别,2012ImageNet竞赛,2014人脸识别,2016围棋比赛,2019德州扑克,2021AlphaFold
现:ChatGPT
三、上海人工智能实验室
1、发布千亿大模型
2、开源20B的模型:
以不足三分之一的参数量,达到Lama2-70B水平;
能力:综合考试、知识问答、阅读理解、推理、编程
3、从模型到应用(智能客服、个人助手、行业应用):
-
步骤:模型选型(评测)、业务场景复杂度、算力、续训/微调(LoRA、全参数)、是否需要交互(构建智能体)、模型评测、部署模型。
-
因此:
4、书生大模型:
-
(1)数据:
-
书生万卷语料库,2TB;OpenDataLab开放数据平台,80TB,含智能标注工具
-
(2)预训练:InternLM-Train。
-
并行训练,高可扩展(8卡到千卡)、兼容主流(HuggingFace、轻量化技术),开箱即用(多种规格语言模型)。
-
(3)微调:XTuner
-
支持:
-
增量续训(基座模型学习新知识:垂类领域知识,需大规模数据)(文章、书籍、代码)
-
有监督微调(指令对话,少量领域知识)(高质量对话、问答数据)。
-
LoRA,预训练参数固定,额外引入少量可训练参数,训练代价小。
-
兼容多种生态、算法和Nvidia 20系以上的显卡。8GB可以微调7B的模型。
-
(4)部署:LMDeploy。
-
大语言模型特点:
-
内存开销大(庞大参数量、采用自回归生成token需要缓存k/v)、动态shape(请求数不确定、token逐个生成数量不定)、模型结构简单(transformer);
-
技术挑战:低存储设备(消费级显卡,移动端)、推理(加速token生成,解决动态shape让推理具连续性,有效管理和利用内存)、服务(提升吞吐量,降低请求平均响应时间);
-
部署方案:技术点(模型并行、低比特量化、attention优化、计算和访存优化、continuous batching)。
-
接口:python、gRPC、Restful;
-
轻量化:4bit权重/8bit kv;
-
推理引擎:turbomind、pytorch;
-
服务:openai-server、gradio、triton inference server。
-
领先的推理能力:静态推理性能(固定batch,输入/输出token数量),动态推理性能(真实对话,不定长的输入/输出)
-
(5)评测:OpenCompass。
-
6维度,80评测集,40万题目。
-
工具层、方法层、能力层(通用/特色能力)、模型层(基座/对话模型)。
-
工具层:分布式评测、提示词工程、评测数据库上报、评测榜单发布、评测报告生成
-
方法层:自动化客观评测、基于模型辅助的主管评测、基于人类反馈的主观评测
-
通用能力:学科、语言、知识、理解、推理、安全。特色能力:长文本、代码、工具、知识增强
-
(6)应用:Lagent;AgentLego。
-
LLM的局限性:最新信息的获取、可靠性、数学计算、工具使用。
-
智能体:以LLM为核心,进行规划、推理和执行。Lagent支持多种类型的能力(ReAct、ReWoo、AutoGPT)、多种大模型、丰富的工具。AgentLego,聚焦给LLM提供工具集合,支持多种模型、智能体系统。