声明:该笔记为个人学习笔记,如有理解不到位的地方或者错误的地方恳请指正。
学习链接:书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili
一、引言
书生浦语大模型的全链路开源体系详细介绍了其发展历程和特点。作为通用人工智能的重要途径,大模型能够解决多种任务和多种模态。书生浦语大模型具备超长上下文能力,其综合性能得到全面提升,能够实现结构化创作和可靠的数据分析。同时,模型强化了内生计算能力和代码解释器,在多个能力维度上取得了优异的评测结果。
自21世纪深度学习理论取得突破以来,各类专用模型不断涌现并表现出色。虽然针对特定任务的专用模型引发了广泛关注,但一个模型应对多种任务、多种模态的通用大模型正逐渐成为人工智能的发展趋势。
二、InternLM模型介绍
2023年6 月 7 日InternLM 干亿参数语言大模型发布。
InternLM 2于2024年1月17日开源,包含两个规格(7B和20B)和三个不同版本(InternLM2-Base、InternLM2、InternLM2-Chat)。每个版本都根据不同的需求进行了优化,从轻量级研究到复杂使用场景,再到对话交互应用,InternLM 2展示了其在多方面的强大性能和适应性。
- 7B:提供了一个轻便但性能不俗的模型,适用于轻量级研究和应用。
- 20B:综合性能更为强劲,能够有效支持更加复杂的使用场景。
- InternLM2-Base:一个高质量且具有很强可塑性的模型基座,适合作为模型进行深度领域适配的高质量起点。
- InternLM2:在大规模无标签数据上进行进一步预训练,并结合特定领域的增强语料库进行训练。该版本在评测中表现优异,同时保持了良好的通用语言能力,是我们推荐用于大部分应用的优秀基座。
- InternLM2-Chat-SFT:基于InternLM2-Base模型进行了有监督微调,是InternLM2-Chat模型的中间版本。我们将其开源以助力社区在对齐方面的研究。
- InternLM2-Chat:在InternLM2-Chat-SFT基础上进行了在线RLHF进一步对齐,优化了对话交互能力。该模型具有良好的指令遵循、共情聊天和调用工具等能力,是我们推荐直接用于下游应用的模型。
InternLM2回归语言建模的本质,使用新一代数据清洗过滤技术通过多维度数据价值评估、高质量语料驱动的数据富集和有针对性地数据补齐,提升模型下游任务的性能。
InternLM2的主要亮点
- 超长上下文:模型在20万token的上下文中几乎完美实现“大海捞针”的能力。
- 综合性能全面提升:推理、数学、代码处理能力显著提升。
- 优秀的对话和创作体验:精准的指令跟随和丰富的结构化创作能力。
- 工具调用能力整体提升:能够可靠地支持多轮工具调用,适用于构建复杂的智能体。
- 突出的数理能力和实用的数据分析功能:强大的内生计算能力,并且通过加入代码解释,进一步提升了其能力。
在各能力维度全面进步,在推理、数学、代码等方面的能力提升尤为显著,综合性能达到同量级开源模型的领先水平,在重点能力评测上 InternLM2-Chat-20B 甚至可以达到比肩 ChatGPT(GPT-3.5)的水平
三、从模型到应用
书生·浦语大模型全链路开源体系通过开源涵盖数据、预训练、微调、部署、评测和应用的全链条环节,为开发者提供了一整套完善的工具和框架,显著提升了模型的开发效率和应用效果。
- 数据:提供了2TB的数据,涵盖多种模态和任务。
- 预训练:开源了InternLM - train,并行训练,极致优化,速度达到 3600。
- 微调:提供了X Tuner框架,支持全参微调和LoRA等低成本微调方法。
- 部署:使用LMDeploy工具,全链路部署,每秒生成 2000+tokens,便于模型的部署和管理。
- 评测:提供了OpenCompass等工具,全方位评测,100 套评测集,50 万道题目用于模型性能评测。
- 应用:支持多种智能体,支持代码解释器等多种工具,方便模型在各种实际场景中的应用。
1.开源数据
数据集地址: OpenDataLab OpenDataLab 引领AI大模型时代的开放数据平台
2.预训练
3.微调
4.性能测评
在评测方面,开发了OpenCompass评测框架,包含80 套评测集,40 万道题目。OpenCompass可以对模型在多个任务和数据集上的表现进行全面评估,从而了解模型的优势和局限性。
CompassHub高质量评测基准社区
5.模型部署
LMDeploy是一款功能强大的工具,提供了从模型轻量化到推理再到服务的全流程解决方案,使得在GPU上的模型部署变得更加高效和便捷。
6、智能体(Agent)⭐热点
在大语言模型(LLM)的语境下,Agent可以理解为一种能够自主理解、规划决策、并执行复杂任务的智能体。
提供了轻量级智能体框架 Lagent
多模态智能体工具箱AgentLego
Lagent和AgentLego分别作为轻量级智能体框架和多模态工具箱,进一步支持智能体的开发和多模态任务处理。
四、总结
书生全链路开源体系通过简化大模型的使用门槛,使其更易为非专业人员所用,推动了大模型技术在日常生活中的普及和应用。这一成就感谢上海人工智能实验室平台和书生社区每一位开发者的辛勤付出。