1-书生·浦语发展历史(截止202405)及其开源工具链
什么是书生·浦语的全链路开源体系
全链路的开源体系,是覆盖MLOps的全生态的链路的工具链,支持从数据获取、预训练、微调、部署、模型评测、场景应用支撑的工具链条。
貌似目前就书生·浦语有这样的全链路开放体系,值得先点个赞,如果有其他的,请评论、留言。
在github上的项目: https://github.com/InternLM
书生·浦语
书生·浦语历史
本文从书生·浦语的模型开源及工具链方面来介绍。
大模型已经成为通用人工智能的重要途径,从本世纪初到2021年的这段时间人工智能的发展,主要是针对特定任务来解决问题,通常一个任务就一个模型来解决。比如图像分类、人脸识别等。
而大模型,能够实现多模块的任务。
书生·浦语的开源历程
2024年2代模型开源,相对第一代,有很大提升,能够解决更真实的、更复杂的场景;同时开源了工具链。
每个尺寸的模型都有相应的BASE模型,可以根据实际场景、硬件来选择不同尺寸的模型进行应用、微调等。
2.0主要亮点
包括了:
- 超长的上下文能力
- 综合性能提示
- 优秀的对话和创作体验
- 更强的工具调用能力
- 突出的梳理能力和实用的数据分析能力
2.0的性能较1.0有全面的提升,比较同尺寸的其他模型也表现强势:
工具链
导语:模型到应用的过程
从模型到实际应用场景有哪些GAP需要填呢?
一般的有如下的流程,需要做相应的测试、评测,那这个过程需要多种工具平台来支撑,接下来介绍的书生·浦语的工具链就是用来填补这些GAP,为工程师们提供了有力工具。
工具链覆盖面:
数据集
数据可以通过https://opendatalab.org.cn来获取,已经开源了2.0对应的训练数据集。
预训练平台-internEvo
微调框架-XTuner
大语言模型的下游应用中,增量续训和有监督微调是经常会用到两种方式:
- 增量续训
使用场景:让基座模型学习到一些新知识,如某个垂类领域知识
训练数据:文章、书籍、代码等 - 有监督微调
使用场景:让模型学会理解各种指令进行对话,或者注入少量领域知识
训练数据:高质量的对话、问答数据
微调,包括了全量参数微调和高效微调,高效微调通常是训练部分参数,场景的如LoRA、QLoRA等。
xtuner可以支持多种模型、不同数据格式、算法的微调,可以让用户将更多的精力放到数据集准备等方面:
评测体系-OpenCompass
提供了中立的性能榜单、基准测试等,已经被广泛应用在头部企业
模型部署-LMDeploy
相较于vLLM有很大性能领先:
智能体-Lagent和多模态智能体工具箱AgentLego
多模态智能体工具箱 AgentLego
- 丰富的工具集合,尤其是提供了大量视觉、多模态相关领域的前沿算法功能
- 支持多个主流智能体系统,如 LangChain,Transformers Agent,lagent 等
- 灵活的多模态工具调用接口,可以轻松支持各类输入输出格式的工具函数
- 一键式远程工具部署,轻松使用和调试大模型智能体
写在最后
AI工程也是工欲善其事,必先利其器的一个大工程,能够从某种程度、某个方面降低人工智能工程化的门槛,相信业内也会出现类似的更多、更好的平台,为人工智能的市场化应用提供有力支撑。