该报告主要介绍了 DeepSeek V3 和 R1 模型的相关知识,包括训练过程、性能表现、使用技巧、应用场景以及替代方案等内容,旨在帮助用户全面了解和使用 DeepSeek 模型。
模型训练与架构
DeepSeek V3:是强大的 MoE 语言模型,通过预训练、精调等步骤,使用大量数据训练,在数学、代码等任务表现出色。其基础架构包括 Multi - Head Latent Attention(MLA)、DeepSeekMoE 和多 Token 预测(MTP)策略等,通过创新和优化提升性能与效率。
DeepSeek R1:为推理模型,经特定训练步骤发展而来,在复杂任务上性能优异,可与 OpenAI 相关模型媲美,且对其推理能力进行了模型蒸馏研究。
性能表现
DeepSeek V3:在通用知识测试如 MMLU 等超越开源模型,接近 GPT - 4o;代码竞赛和数学推理测试中成绩突出;中文事实问答表现良好。
DeepSeek R1:通用能力如 MMLU 测试中超越 DeepSeek V3,上下文理解和部分数学、代码任务表现佳,但在通用能力某些方面、语言混合、提示词工程和软件工程任务存在局限。
使用技巧与提示词
提示词变化:R1 中部分传统提示词技巧有效(如清晰具体表达、提供背景规则等),部分失效(如逐步思考 / COT)或视情况而定(如使用示例、设定角色),同时介绍了多种有效提示词框架和方法。
使用技巧:R1 可将其当人交流,学习其思维链,请教方法论;还可结合 V3 与 R1 优势,依任务特点选择使用。
官方提示词样例:涵盖代码、文本处理、创作、翻译等多领域,展示了不同任务的有效提示词及技巧。
应用场景
文本生成:包括文风转换 / 仿写、内容批量生成,可借助 DeepSeek 生成文本后结合其他工具生成视频、图片等。
编程场景:能进行代码生成、解释与注释,应用于多种开发项目。
绘图场景:通过生成特定格式文本与相关工具配合绘制思维导图、流程图等图形,或生成 SVG 矢量图、处理 Photoshop 图片。
API 场景:可接入 Word、WPS 等软件和硬件设备,以及 AI 知识库等,介绍了不同接入方式及注意事项。
其他场景:可用于自我探索和发现、乙游剧本创作等。
替代方案:因 DeepSeek 官方应用存在问题,介绍了秘塔 AI 搜索、纳米 AI 搜索、硅基流动等多种在线替代方案,以及国内大厂、手机厂商、其他国内产商、AI 编程工具和海外产品等接入情况,还提供了本地部署的配置要求和操作建议。
后台回复“250219A”,可获得下载资料的方法。
本公号使用腾讯元器(使用Deep SeekR1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台私信公号)。
点击文后阅读原文,可获得下载资料的方法。