开源之路
- 2023年7月6日,InternLM-7B开源,个人用
- 2023年9月20日,InternLM-20B开源,企业可用
- 2024年1月17日,InternLM2.0开源,性能提升
- 2024年7月4日,InternLM2.5开源
- 性能天梯如下,不断提高
- 2.5的最新优势
- 原生推理能理领先。
- 支持100万token上下文,是GPT4o的十倍。
- 大海捞针实验效果出众,可以精准定位超长上下文中的少量信息。
- PS:未来可能会替代RAG
- 自主规划和搜索完成复杂任务
- 模拟人的思路,案例比如MindSearch项目
- 核心技术思路
- 模型能力迭代飞轮
- 高质量的合成数据:融合多种数据合成方案,提升合成数据质量
- OpenDataLab开源了标注工具LabelLLM,可以用于标注数据集。
书生浦语开源模型谱系
- 1.8B用于学习
- 7B的微调还是比较呆板
- 20B的模型有“涌现”的能力出现
- 102B未开源
- 书生万卷,企业用户常用,包含很多子领域数据库
- InternEvo,企业用户常用,训练框架,超过DeepSpeed
- XTuner,常用,方便的微调框架
- LMDeploy,部署工具
- OpenCompass,开源评测体系
- 应用
- huixiangdou,快速的RAG工具
- MinerU,高效的文档解析工具,解析PDF转换为纯文本格式,集成了OCR
- Lagent,智能体框架
- MindSearch,思索式开源搜索应用
- 大多数微调用的都是QLoRA/LORA
- 全量微调,个人电脑不要尝试,训不起来
- 广泛应用于头部企业和科研机构
- LMDeploy支持了更多的大模型
- 各方面领先于vLLM
- 支持主流三种智能体构建方案
- 比如代码解数学题(数学问题转化为了语义问题)、比如零样本泛化(多模态AI工具使用,调用Imagedescription多模态模型作为插件,调用文字转语音工具输出语音)
- 模拟人脑的思维路径,可视化展现出来。
- 支持RAG,也支持KG知识图谱
总结
- 以持续的高质量开源赋能创新