随堂记录
从OpenAI所发表的论文题目可以看到,该组织的研究关键词是decoder-only architecture、scaling、pre-training、alignment、multitask、multi-model等。而且GPT-1的论文是2018年公开的,那么在2018年以前OpenAI已经开始了有关大语言模型的相关思考和技术路线规划。
目前所发布的书生·浦语大模型系列 :
书生·浦语全链条开发体系
书生·浦语提供了大模型训练所需要的数据和预训练工具,提供模型微调工具,提供模型部署工具和模型评测工具,并且具有Lagent和AgentLego两个大模型应用开发工具。
数据
书生·万卷是OpenMMLab所开的多模态数据集,包括文本数据、文本-图片数据和视频数据,总量超过2TB,数据经过了多模态融合、精细化处理、价值观对齐等操作。
此外,OpenMMLab还有OpenDataLab这样的开放数据平台。该平台具有大量的多模态数据,并且提供智能标注的工具。
预训练
InternLM-Train是OpenMMLab发布的预训练工具,支持多卡的训练和加速,并且能够兼容当前的主流技术生态,例如HuggingFace,支持各类轻量化的技术,修改配置即可训练多种规格语言模型。具备更好的训练效率和易操作性。
微调
为了让模型适应其应用场景,需要对模型进行微调,微调包括增量续训和有监督微调。前者是使用某一领域的文章、书籍等;后者则是让模型学习某些对话、问答数据。
OpenMMLab开源XTuner微调框架,适配多种微调算法和开源生态,可以自动优化加速。XTuner能够在常见消费级显卡上进行模型微调,覆盖NVIDIA 20系以上所有显卡,只需要8GB显存即可微调7B模型。
评测
模型评测是大模型能力的评估方式之一,目前主流的评测体系如下图所示:
OpenMMLab开源了自己的评测体系——OpenCompass,该评测体系包括六种不同的评价维度、80多个评测集和40多万道评测题目,支持分布式高效评测、便捷的数据接口,支持当前的主流模型。
部署
大模型的特点是:内存开销巨大、动态Shape、模型结构相对简单。大模型部署领域的技术挑战包括:低存储设备如何部署、如何加速token生成速度、如何有效管理内存、如何降低模型的响应时间等。
OpenMMLab提供LMDeploy部署工具,可以完成量化、推理、服务全流程,提供和OpenAI高度兼容的API server。
智能体
Agent是基于大语言模型所开发的智能体,能够理解并完成输入的指令,并且可以自主完成一些动作,例如文献搜索、代码解释等。
OpenMMLab发布了轻量级智能体开发框架Lagent,兼容chatGPT、HuggingFace Transformers、Llama、InternLM等大语言模型。
AgentLego是OpenMMLab所发布的多模态智能体工具箱,提供大量视觉、多模态相关领域前沿算法,可供当前主流智能体开发框架所使用。