1-书生·浦语发展历史(截止202405)及其开源工具链

什么是书生·浦语的全链路开源体系

全链路的开源体系,是覆盖MLOps的全生态的链路的工具链,支持从数据获取、预训练、微调、部署、模型评测、场景应用支撑的工具链条。
貌似目前就书生·浦语有这样的全链路开放体系,值得先点个赞,如果有其他的,请评论、留言。

在github上的项目: https://github.com/InternLM
在这里插入图片描述

书生·浦语

书生·浦语历史

本文从书生·浦语的模型开源及工具链方面来介绍。
大模型已经成为通用人工智能的重要途径,从本世纪初到2021年的这段时间人工智能的发展,主要是针对特定任务来解决问题,通常一个任务就一个模型来解决。比如图像分类、人脸识别等。
而大模型,能够实现多模块的任务。
在这里插入图片描述

书生·浦语的开源历程

2024年2代模型开源,相对第一代,有很大提升,能够解决更真实的、更复杂的场景;同时开源了工具链。
在这里插入图片描述在这里插入图片描述每个尺寸的模型都有相应的BASE模型,可以根据实际场景、硬件来选择不同尺寸的模型进行应用、微调等。

2.0主要亮点

包括了:

  • 超长的上下文能力
  • 综合性能提示
  • 优秀的对话和创作体验
  • 更强的工具调用能力
  • 突出的梳理能力和实用的数据分析能力

在这里插入图片描述
2.0的性能较1.0有全面的提升,比较同尺寸的其他模型也表现强势:
在这里插入图片描述在这里插入图片描述

工具链

导语:模型到应用的过程

从模型到实际应用场景有哪些GAP需要填呢?
在这里插入图片描述一般的有如下的流程,需要做相应的测试、评测,那这个过程需要多种工具平台来支撑,接下来介绍的书生·浦语的工具链就是用来填补这些GAP,为工程师们提供了有力工具。
在这里插入图片描述工具链覆盖面:
在这里插入图片描述

数据集

数据可以通过https://opendatalab.org.cn来获取,已经开源了2.0对应的训练数据集。在这里插入图片描述

预训练平台-internEvo

internEvo

微调框架-XTuner

大语言模型的下游应用中,增量续训和有监督微调是经常会用到两种方式:

  • 增量续训
    使用场景:让基座模型学习到一些新知识,如某个垂类领域知识
    训练数据:文章、书籍、代码等
  • 有监督微调
    使用场景:让模型学会理解各种指令进行对话,或者注入少量领域知识
    训练数据:高质量的对话、问答数据

微调,包括了全量参数微调和高效微调,高效微调通常是训练部分参数,场景的如LoRA、QLoRA等。
在这里插入图片描述xtuner可以支持多种模型、不同数据格式、算法的微调,可以让用户将更多的精力放到数据集准备等方面:
在这里插入图片描述

评测体系-OpenCompass

在这里插入图片描述提供了中立的性能榜单、基准测试等,已经被广泛应用在头部企业
在这里插入图片描述
在这里插入图片描述

模型部署-LMDeploy

在这里插入图片描述相较于vLLM有很大性能领先:
在这里插入图片描述

智能体-Lagent和多模态智能体工具箱AgentLego

在这里插入图片描述在这里插入图片描述多模态智能体工具箱 AgentLego

  • 丰富的工具集合,尤其是提供了大量视觉、多模态相关领域的前沿算法功能
  • 支持多个主流智能体系统,如 LangChain,Transformers Agent,lagent 等
  • 灵活的多模态工具调用接口,可以轻松支持各类输入输出格式的工具函数
  • 一键式远程工具部署,轻松使用和调试大模型智能体

写在最后

AI工程也是工欲善其事,必先利其器的一个大工程,能够从某种程度、某个方面降低人工智能工程化的门槛,相信业内也会出现类似的更多、更好的平台,为人工智能的市场化应用提供有力支撑。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wengad

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值