文章目录
DeepSeek(深度求索)是由中国人工智能公司深度求索(DeepSeek Inc.)开发的一系列大语言模型(LLMs)和人工智能解决方案,专注于推动通用人工智能(AGI)的研究与应用。该系列以高效训练、强大性能和多样化场景适配为特点,覆盖了从开源模型到商业闭源模型的多类产品。以下是其核心模型及技术概览:
一、DeepSeek 系列核心模型
1. MoE 架构模型
- DeepSeek MoE-16B/8x220B
- 特点:采用混合专家(Mixture of Experts, MoE)架构,通过稀疏激活提升模型效率。16B版本激活参数量仅2.8B,推理成本接近7B模型,性能接近70B稠密模型。
- 训练数据:基于8.1T tokens的高质量多语言语料。
- 应用:适用于高性价比的复杂任务处理,如长文本生成和多轮对话