书生.浦语 体系其实商汤和上海人工智能实验室合作,目前整体来说已经形成一站式的大模型的全链路技术栈开放能力,具体来看:
涵盖了从数据、预训练、微调、部署评测和应用框架的完整链条,个人理解书生体系在数据集开放、微调工具以及最为知名的openCompass工作确实做的还不错,知名度还可以,花了很长时间功夫来实现了整体开源体系;后面挑选几个重点内容进行展示:
1. 数据集开放,针对现有开源语料进行收集,并进行了清洗和处理,注重高质量;
高质量的语料也应用在书生内生大模型体系当中,高质量语料的数据吻合效应更加突出,对于Loss分布图中就能够看出来,以更少的模型参数,实现更强的性能;
2. 微调能力,X-tuner,是书生体系重点打造的能力,比较重要的一点是上海人工智能实验室有很强的显卡储备,可以实现全链路纳管;
3. OpenCompass,书生最为知名的开源成果,有机会大家尝试;
4. 智能体能力,我个人觉得可能不会太出色,大家可以简单试用