至顶科技：DeepSeek完全实用手册——从技术原理到使用技巧 2025-CSDN博客

这篇文档是至顶科技至顶 AI 实验室发布的《DeepSeek 完全实用手册 1.0 版》，围绕杭州深度求索人工智能基础技术研究有限公司研发的 DeepSeek 展开，涵盖公司与模型简介、技术路线、调用部署、使用方法等内容，还对 AI 发展趋势进行了判断。

DeepSeek 简介：DeepSeek 是幻方量化旗下 AI 公司，成立于 2023 年 7 月，专注通用人工智能。研发开源十余款模型，其中 V3 对话模型和 R1 推理模型备受关注，发布后关注度飙升。V3 采用混合专家架构，多任务处理能力强；R1 基于强化学习，专注代码生成和数学问题解决，推理能力可迁移。

技术路线解析：R1 以 V3 为基座模型训练，经冷启动生成推理数据，再进行强化学习和 SFT 训练。在成本相关技术上，采用混合专家 MoE、多头潜在注意力 MLA、多词元预测训练 MTP 和 FP8 混合精度训练等技术降低成本；性能相关技术上，提出群体相对策略优化（GRPO）改良近端策略优化算法（PPO），提升计算效率。针对热点问题，澄清了模型成本、数据来源及是否绕过 CUDA 等疑问。

调用与部署：R1 模型可云端调用或本地部署。云端调用可通过官方或第三方 API，或在云平台操作，具有无需购置硬件的优势；本地部署需下载模型，借助工具启动，适合对数据安全要求高的场景，但对硬件配置有要求。文档还给出了不同调用方式的成本、性能测评数据，以及本地部署的硬件配置建议和一体机部署方案。

使用方法：使用范式包括独立使用和工具组合使用。独立使用时，通过自然语言对话获取服务，官方总结了 17 种提示词使用方法。工具组合使用可实现办公增效、创意设计、AI 音视频、编程辅助等场景创新，如与 XMind、飞书、MidJourney 等工具结合，提高工作效率和创作能力。

趋势判断与注意事项：开源模型将推动 AI 应用生态繁荣，降低企业和创业者接入成本；推理模型或成主流，其精准度高、可解释性强；未来业务、工作者和公司都将深度融入 AI 技术。同时，使用 DeepSeek 模型时需警惕幻觉问题，其 R1 模型幻觉率相对较高。

DeepSeek 最新动向：2025 年 2 月 24 日起，DeepSeek 启动开源周，连续 5 天开源 5 个代码库，包括 FlashMLA、DeepEP、DeepGEMM 等，分别在解码内核、通信库、GEMM 库方面有优化和创新。

后台回复“250228C”，可获得下载资料的方法。