这篇文档是至顶科技至顶 AI 实验室发布的《DeepSeek 完全实用手册 1.0 版》,围绕杭州深度求索人工智能基础技术研究有限公司研发的 DeepSeek 展开,涵盖公司与模型简介、技术路线、调用部署、使用方法等内容,还对 AI 发展趋势进行了判断。
DeepSeek 简介:DeepSeek 是幻方量化旗下 AI 公司,成立于 2023 年 7 月 ,专注通用人工智能。研发开源十余款模型,其中 V3 对话模型和 R1 推理模型备受关注,发布后关注度飙升。V3 采用混合专家架构,多任务处理能力强;R1 基于强化学习,专注代码生成和数学问题解决,推理能力可迁移。
技术路线解析:R1 以 V3 为基座模型训练,经冷启动生成推理数据,再进行强化学习和 SFT 训练。在成本相关技术上,采用混合专家 MoE、多头潜在注意力 MLA、多词元预测训练 MTP 和 FP8 混合精度训练等技术降低成本;性能相关技术上,提出群体相对策略优化(GRPO)改良近端策略优化算法(PPO),提升计算效率。针对热点问题,澄清了模型成本、数据来源及是否绕过 CUDA 等疑问。
调用与部署:R1 模型可云端调用或本地部署。云端调用可通过官方或第三方 API,或在云平台操作,具有无需购置硬件的优势;本地部署需下载模型,借助工具启动,适合对数据安全要求高的场景,但对硬件配置有要求。文档还给出了不同调用方式的成本、性能测评数据,以及本地部署的硬件配置建议和一体机部署方案。
使用方法:使用范式包括独立使用和工具组合使用。独立使用时,通过自然语言对话获取服务,官方总结了 17 种提示词使用方法。工具组合使用可实现办公增效、创意设计、AI 音视频、编程辅助等场景创新,如与 XMind、飞书、MidJourney 等工具结合,提高工作效率和创作能力。
趋势判断与注意事项:开源模型将推动 AI 应用生态繁荣,降低企业和创业者接入成本;推理模型或成主流,其精准度高、可解释性强;未来业务、工作者和公司都将深度融入 AI 技术。同时,使用 DeepSeek 模型时需警惕幻觉问题,其 R1 模型幻觉率相对较高。
DeepSeek 最新动向:2025 年 2 月 24 日起,DeepSeek 启动开源周,连续 5 天开源 5 个代码库,包括 FlashMLA、DeepEP、DeepGEMM 等,分别在解码内核、通信库、GEMM 库方面有优化和创新。
后台回复“250228C”,可获得下载资料的方法。
本公号使用腾讯元器(使用DeepSeek R1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台使用私信对话)。
点击文后阅读原文,可获得下载资料的方法。