一、方案简介
某司以军工及政务特种领域的大模型私有化落地为核心方向,打磨覆盖数据治理,微调数据生成,知识库构建,领域大模型训练、编排、应用全周期的大模型开发产品集,提供军事智能问答、军事情报分析、智能空战助手、指挥辅助决策及自动化调度等解决方案及应用产品。
二、技术能力
(一)数据治理
支持标准化的数据治理流程,为大模型训练及领域知识库提供数据基础。
(二)大模型微调
支持多种大模型基座、微调算法及优化训练,轻松、高效评测领域大模型效果。
(三)数据生成
支持适应特定任务的微调数据生成策略为大模型微调提供海量高质量问答对语料数据。
(四)大模型编排
支持拖拉拽交互方式、智能提示词工程意图识别分流调用、思维链构建等业务相关编排集成,快速搭建RAG及Agent应用。
(五)知识库构建
支持领域知识图谱构建及知识向量化为大模型提供高效、可信的知识增强能力。
(六)大模型应用
支持可信智能问答、多源情报自监督学习、外部系统API精准调用、作战计划推理生成等可信、可控、安全、白盒的军事领域大模型应用。
三、方案拓扑图
四、核心子系统
(一)大模型数据治理平台
用于单位海量知识数据管理,为大模型增量化训练及微调训练提供基础输出处理支撑。
1.多源异构文档一键解析处理
支持海量多源异构数据集一键上传解析单个数据集支持上千量级文档解析处理。
2.逐词句精准检索定位
内置AI模型,支持OCR文字、图片、表格等精准识别支持文档内逐词句的精准检索、定位及调用具备简便高效的人工审核功能。
3.高度互操作的系统框架
提供高度可扩展的接口,确保灵活的系统集成能力 支持多种数据源及文件格式,实现无缝数据交互。
4.多元高精度OCR识别
支持从PDF、模糊扫描件和图片中精准提取文字、表格、图像,并有效排除水印和印章等干扰信息。
5.原文结构高效解析审核
支持自动解析原文结构及内容,实现高效的内容定位与审核。
(二)大模型微调训练管理应用平台
平台可基