DeepSeek自学手册——从理论模型训练到实践模型应用 2025

智能交通技术

于 2025-02-19 13:51:21 发布

阅读量161

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI5NzExMTY0Mg==&mid=2650831472&idx=1&sn=bd42221942fa38833e7bf1ad3ba0de20&chksm=f62323325ca09af89532b99d64b36290a2dbf3c10093b10fdd6da832b2a1cf0774349fc4fbca&scene=126&sessionid=0

版权

该报告主要介绍了 DeepSeek V3 和 R1 模型的相关知识，包括训练过程、性能表现、使用技巧、应用场景以及替代方案等内容，旨在帮助用户全面了解和使用 DeepSeek 模型。

模型训练与架构

DeepSeek V3：是强大的 MoE 语言模型，通过预训练、精调等步骤，使用大量数据训练，在数学、代码等任务表现出色。其基础架构包括 Multi - Head Latent Attention（MLA）、DeepSeekMoE 和多 Token 预测（MTP）策略等，通过创新和优化提升性能与效率。
DeepSeek R1：为推理模型，经特定训练步骤发展而来，在复杂任务上性能优异，可与 OpenAI 相关模型媲美，且对其推理能力进行了模型蒸馏研究。

性能表现

DeepSeek V3：在通用知识测试如 MMLU 等超越开源模型，接近 GPT - 4o；代码竞赛和数学推理测试中成绩突出；中文事实问答表现良好。
DeepSeek R1：通用能力如 MMLU 测试中超越 DeepSeek V3，上下文理解和部分数学、代码任务表现佳，但在通用能力某些方面、语言混合、提示词工程和软件工程任务存在局限。

使用技巧与提示词

提示词变化：R1 中部分传统提示词技巧有效（如清晰具体表达、提供背景规则等），部分失效（如逐步思考 / COT）或视情况而定（如使用示例、设定角色），同时介绍了多种有效提示词框架和方法。
使用技巧：R1 可将其当人交流，学习其思维链，请教方法论；还可结合 V3 与 R1 优势，依任务特点选择使用。
官方提示词样例：涵盖代码、文本处理、创作、翻译等多领域，展示了不同任务的有效提示词及技巧。

应用场景

文本生成：包括文风转换 / 仿写、内容批量生成，可借助 DeepSeek 生成文本后结合其他工具生成视频、图片等。
编程场景：能进行代码生成、解释与注释，应用于多种开发项目。
绘图场景：通过生成特定格式文本与相关工具配合绘制思维导图、流程图等图形，或生成 SVG 矢量图、处理 Photoshop 图片。
API 场景：可接入 Word、WPS 等软件和硬件设备，以及 AI 知识库等，介绍了不同接入方式及注意事项。
其他场景：可用于自我探索和发现、乙游剧本创作等。

替代方案：因 DeepSeek 官方应用存在问题，介绍了秘塔 AI 搜索、纳米 AI 搜索、硅基流动等多种在线替代方案，以及国内大厂、手机厂商、其他国内产商、AI 编程工具和海外产品等接入情况，还提供了本地部署的配置要求和操作建议。

后台回复“250219A”，可获得下载资料的方法。

本公号使用腾讯元器（使用Deep SeekR1大模型）创建了智能交通技术AI服务，欢迎扫码进入体验（或在后台私信公号）。

点击文后阅读原文，可获得下载资料的方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。