以下是 DeepSeek 系列模型的主要版本及其相关论文列表,每条记录均附上论文地址:
- DeepSeek LLM
发布时间:2024 年 1 月 5 日
论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
主要内容:
基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
支持多步学习率调度器,提升训练效率。
在预训练和对齐(监督微调与 DPO)方面进行了创新。
论文地址:https://arxiv.org/abs/2401.0295420
- DeepSeekMoE
发布时间:2024 年 1 月 11 日
论文标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
主要内容:
提出细粒度专家分割(Fine-Grained Expert Segmentation)和共享专家隔离(Shared Expert Isolation)策略。
通过更灵活的专家组合提升模型性能,同时保持计算成本不变。
论文地址:https://arxiv.org/abs/2401.060662
- DeepSeek-V2
发布时间:2024 年 5 月
论文标题:DeepSeek-V2: A Strong, Eco