手册全面介绍了 DeepSeek 模型,涵盖公司与模型概况、技术原理、部署应用、使用方法及未来趋势等内容。
DeepSeek 概况:杭州深度求索人工智能基础技术研究有限公司开发,旗下的 V3 和 R1 模型备受关注。V3 是高性能对话模型,R1 是推理模型,二者在性能、成本、开源等方面优势明显,得到业界认可。
技术路线解析:R1 以 V3 为基座模型训练,采用混合专家(MoE)架构、多头潜在注意力(MLA)、多词元预测训练(MTP)、FP8 混合精度训练等技术降低成本,通过强化学习中的群体相对策略优化(GRPO)提升性能。
部署进展:在地方政府、央企、地方国企和智能终端广泛部署。地方政府用于智能问答、公文起草等;央企覆盖多领域,提升办公和生产效率;地方国企涉及多行业,助力企业智能化;智能终端搭载实现多种功能升级。
调用与部署:云端调用通过官方或第三方 API,成本低但有使用限制;本地部署需下载模型,借助工具启动,适合数据安全要求高的场景,不同版本对硬件配置要求不同。
使用方法:可独立使用,用于文本创作、知识推理等;也可与多种工具组合,如办公增效、创意设计等,通过提示工程优化输入指令,提高模型输出质量。
趋势判断:开源模型推动 AI 应用生态繁荣,推理模型有望成主流,AI 技术将广泛融入业务、个人电脑和企业算力平台,“Agent + 协议” 或成企业应用新范式。