书生·浦语大模型全链路开源开放体系

Tensorrrrrr

于 2024-10-01 18:47:45 发布

阅读量505

点赞数 13

分类专栏：大模型文章标签：书生·浦语大模型

本文链接：https://blog.csdn.net/weixin_47524641/article/details/142673435

版权

大模型专栏收录该内容

3 篇文章 0 订阅

订阅专栏

书生·浦语大模型全链路开源开放体系

在这里插入图片描述

大模型应用生态的发展和繁荣是建立在模型基座强大的通用基础能力之上的。上海AI实验室联合团队研究认为，大模型各项性能提升的基础在于语言建模能力的增强，对于大模型的研究应回归语言建模本质，通过更高质量的语料以及更高的信息密度，筑牢大模型能力基础。

支持200K超长上下文，实现“大海捞针” 通过拓展训练窗口大小和改进位置编码，InternLM2支持200K token的上下文，能够一次性接受并处理约30万汉字（约五六百页的文档）的输入内容，准确提取关键信息，实现长文本中“大海捞针”。为测试InternLM2在真实长文本处理任务中的能力，研究人员将一份时长3小时的公开会议录音转录稿输入模型中，并要求InternLM2从中提取出关键信息。测试结果表明，尽管在未校对的文本中存在较多错别字，但InternLM2仍从中准确提炼出了关键信息，并总结了发言人的主要观点。
在这里插入图片描述

在这里插入图片描述

性能全面提升，综合能力领先的开源模根据大语言模型的应用方式和用户关注的重点领域，研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度，在55个主流评测集上对多个同量级模型的表现进行了综合评测。结果显示，InternLM2的轻量级（7B）及中量级（20B）版本性能在同量级模型中表现优异。与此同时，综合性能的增强带来了下游任务的全方位能力提升。InternLM2提供优秀的对话及创作体验，支持多轮任务规划及工具调用，并提供实用的数据分析能力。

对话及创作：更温情、更富想象力 InternLM2不仅在客观性能指标上提升显著，在主观体验上也有明显改善，可以为用户提供优秀的对话和交互体验。研究测试表明，InternLM2-Chat可以精准地理解和遵循用户意图，具备较强的共情能力和丰富的结构化创作能力。（1）在严格的格式要求下编制课程大纲；（2）以富有人文关怀的回答开解用户，在对话中与用户“共情”；（3）展开想象力，编写《流浪地球3》的剧本，InternLM2设计的具备充满丰富的合理想象，比如外星遗迹、量子纠缠的引入等，同时整个故事表现了人类面对危机时的勇气和团结精神。

工具调用：能力升级，更精准的工具选用，更可靠的多步规划 InternLM2工具调用能力全面提升，通过工具调用，使得大语言模型可通过搜索、计算、代码解释器等获取知识并处理更复杂的问题，从而拓展应用边界。研究人员对模型调用工具流程实施细粒度的拆解和分析，针对规划、推理、工具选择、理解、执行、反思等步骤进行了针对性增强和优化。基于InternLM2通过开源智能体框架 Lagent搭建的用户助手智能体，能够在一次指令回应中完成地图查询、路线规划、发邮件等任务
在这里插入图片描述

数理推理：会做题，还会可视化分析基于更加科学构建的预训练语料，InternLM2形成了很强的内生计算能力。在不依靠计算器等外部工具的情况下，在100以内的简单数学运算上能够做到接近100%的准确率，在1000以内达到80%左右的运算准确率。在典型的数学评测集 GSM8K 和 MATH 上，配合代码解释器，InternLM2取得了更高的评测分数。其中对于难度更高的 MATH 数据集，InternLM2的计算精度从 32.5 大幅提升到 51.2，甚至超过了 GPT-4 的表现。