Deepseek所有论文网址及概括

最新推荐文章于 2025-04-25 15:48:33 发布

一只贴代码君

最新推荐文章于 2025-04-25 15:48:33 发布

阅读量544

点赞数 5

文章标签：编辑器网络生活 web安全 udp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaosichengalpha/article/details/145954593

版权

1. DeepSeek-MoE: 专家混合模型的专业化突破

论文链接：arXiv:2404.14388
概括：
提出了DeepSeek-MoE模型，通过细粒度专家分割（细分为64个子专家）和共享专家隔离机制，显著提升了MoE（Mixture of Experts）模型的参数效率和性能。模型在同等计算资源下，性能接近DeepSeek 7B，但训练成本降低至1/6。

2. DeepSeek-R1: 长上下文窗口的稀疏注意力优化

论文链接：arXiv:2405.04431
概括：
提出了一种针对长文本处理的稀疏注意力机制，通过动态调整稀疏模式，使模型在处理超过400万token的上下文时保持高效。实验表明，DeepSeek-R1在长文本任务（如代码补全、数学推理）上表现优异。

3. DeepSeek-V2: 高效多模态模型架构

论文链接：官方技术报告
概括：
介绍了DeepSeek-V2的多模态架构，结合MoE和动态路由技术，在图像理解、视频分析等任务中实现高效推理。模型支持多模态输入，并在多项基准测试中达到SOTA水平。

4. DeepSeek-LLM: 开源大语言模型系列

论文链接：arXiv:2402.02964
概括：
开源了DeepSeek 7B/67B系列模型，覆盖数学推理、代码生成等能力。通过强化数据质量和训练策略优化，模型在多个中英文评测基准上超越同规模开源模型。

其他资源

官方渠道：
- 论文更新：DeepSeek Research
- GitHub仓库：DeepSeek AI（含技术报告和模型代码）
学术平台：
建议通过arXiv或Google Scholar搜索“DeepSeek”或具体模型名称，获取最新论文。

如需更完整的论文列表，可访问其官网或关注学术平台更新。部分研究可能尚未公开，建议持续跟踪官方动态。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只贴代码君 帅帅的你，留下你的支持吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。