一、开源流程
-
书生浦语大模型的开源历程。
二、重要途径:
学习资源
github:https://github.com/InternLM/Tutorial/tree/camp2
InternLM2 报告:https://arxiv.org/pdf/2403.17297.pdf
视频地址:书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili
发展途径
三、模型规格
7b 和 20b
internlm2的三个版本:internlm2质量好,internlm2-base可塑性好,internlm2-chat对话好
建模质量的提升,可以在相同数据的情况下有更好的表现。
四、模型亮点
性能全方位提升
优秀对话和创作体验
工具调用能力整体升级
突出的数理能力和实用的数据分析功能
-
20w token上下文,几乎实现“大海捞针”,
-
推理、数学、代码能力提升显著,
-
精准指令跟随、丰富的结构化创作
-
可靠支持工具多轮调用能力、复杂智能体搭建
-
强大的内生计算能力、加入代码解释后,在GSM8k和MATH达到和GPT-4相仿水平
五、应用案例
从模型到应用
从模型到应用典型流程
书生浦语全链条开源开放体系
数据
预训练
微调
部署
评测
评测体系
评测全栈工具链
高质量评测基准社区
应用
智能体
那假如我们普通人要做一份数据集该如何组织呢?假如是纯文本的,100份公司内部公文案例,应该用txt还是doc格式?一份案例一个文件还是全部放在一个文件里?要在每个案例前标注该案例的写作目的吗?