论文阅读_大模型优化_DeepSeek-V2

英文名称: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
中文名称: DeepSeek-V2:强大、经济高效的专家混合语言模型
链接: http://arxiv.org/abs/2405.04434v2
代码: https://github.com/deepseek-ai/DeepSeek-V2
作者: DeepSeek-AI
机构: DeepSeek-AI 深度探索公司
日期: 2024-05-07

1 读后感

DeepSeek 最近推出的 V2 版本,无疑是当前性价比最高的选择。直观地讲:KIMI 的价格是 12 元/M tokens,Chat 的价格约为 3.5 元/M,GPT 4o 的价格约为 35 元/M。然而,DeepSeek 的价格仅为 1 元/M(这是按照输入计算的,输出通常是输入的两倍,美元兑换按 7 计算)。

我在之前调研代码模型的时候就注意到 DeepSeek 的单模型在排名中很靠前。从论文和网站数据可以看到模型效果在开源领域,甚至在国内开源 + 闭源领域都算是很能打了,因为是一家中文公司,对中文也更加友好。从实验结果来看,它是一种对中文,英文,编码各方面水平比较均衡的模型。

DeepSeek 是一个开源模型,理论上可以在本地部署,但 MoE 的方式虽然快速,却占用大量内存,硬件成本也高。比起这样,购买他们的服务可能更划算。

本篇就来看看 DeepSeek 是如何实现降本增效的。

2 摘要

  • 目标:DeepSeek-V2 是一个 MoE 语言模型,其特点是经济高效的训练和推理。
  • 方法:DeepSeek-V2 采用了创新的架构,包括 Multi-head Latent Attention(MLA)和 DeepSeekMoE。MLA 通过将 Key-Value(KV)缓存显著压缩为潜在向量,确保了高效的推理;而 DeepSeekMoE 通过稀疏计算实现了经济高效的模型训练。
  • 结论:与 DeepSeek 67B 相比,DeepSeek-V2 表现更强,同时节省了 42.5% 的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提升了 5.76 倍。

图 -1,左侧展示模型的理解能力,右侧展示成本和效率的改进。

3 方法

3.1 模型参数

  • 总共包含了 236B 参数
  • 其中每个 token 激活的参数为 21B
  • 支持 128K 个 token 的上下文长度

3.2 架构改进

  • 对于前馈网络(FFN),采用细粒度的专家分割和共享的专家隔离,以提高专家专业化的潜力。论文阅读_MoE_Switch Transformers
  • 多头潜在注意力(MLA),配备低秩键值联合压缩的注意力机制。从而提高了推理效率,下面展开说明 MLA。
3.2.1 Multi-Head Latent Attention 多头潜在注意力

Attention的常见问题

多头注意力(MHA)的键值(KV)缓存(Vaswani et al.,2017)对推理 LLMs 效率构成了重大障碍。为了减少 KV 缓存,提出了多查询注意力(MQA)和分组查询注意力(GQA)。它们需要较小量级的 KV 缓存,但它们的表现不如 MHA。

这篇文章中提出了低秩键值结合压缩。

𝑐𝑡𝐾𝑉=𝑊𝐷𝐾𝑉ℎ𝑡,𝑘𝑡𝐶=𝑊𝑈𝐾𝑐𝑡𝐾𝑉,𝑣𝑡𝐶=𝑊𝑈𝑉𝑐𝑡𝐾𝑉,𝑐𝑡𝑄=𝑊𝐷𝑄ℎ𝑡,𝑞𝑡𝐶=𝑊𝑈𝑄𝑐𝑡𝑄,

简单地讲,就是先用矩阵 W^DKV 压缩,到 c 的维度,即潜空间,c 的维度相比 h 维度小很多,𝑑𝑐′(≪𝑑ℎ⁢𝑛ℎ),然后再计算 k,v 以及 q,在推理过程中,MLA 只需要缓存 𝐜𝑡𝐾⁢𝑉。这和 LORA 原理差不多,也使用了低秩分解,其背景的原理是注意力存在冗余,可被压缩,并且还有可能因为提纯而得到更好的效果。

对比几种优化注意力机制:

3.2.2 解耦旋转位置嵌入

为配合 MLA,使用解耦旋转位置嵌入 RoPE 策略。

3.3 训练数据

  • 构建了一个由 8.1T token 组成的高质量、多源的预训练语料库。
  • 尤其强调了中文数据的收集,并确保了数据的高质。
  • 为了执行 DeepSeek-V2 聊天的监督微调(SFT),我们收集了覆盖数学、代码、写作、推理、安全等各个领域的 1.5M 会话。
  • 遵循 DeepSeekMath(Shao et al.,2024)的方法,采用了组相对策略优化(GRPO),旨在使我们的模型更好地符合人类的偏好。

4 实验结果

主实验结果:

  • 12
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
1. --prefix=${PATH_INSTALL}/nginx: --prefix 指定安装目录,${PATH_INSTALL}/nginx 为安装目录的路径。可选值为任意路径,根据实际需要进行设置。此参数会影响到 nginx 的安装位置,例如配置文件的位置、日志文件的位置等。 2. --user=nginx: --user 指定 nginx 运行的用户,默认为 nobody。可选值为任意用户,根据实际需要进行设置。此参数会影响到 nginx 运行的权限。 3. --group=nginx: --group 指定 nginx 运行的用户组,默认为 nobody。可选值为任意用户组,根据实际需要进行设置。此参数会影响到 nginx 运行的权限。 4. --with-http_ssl_module: --with-http_ssl_module 开启 SSL/TLS 功能,支持 HTTPS 协议。可选值为 --with-http_ssl_module 或 --without-http_ssl_module。如果需要支持 HTTPS 协议,则必须开启此选项。 5. --with-http_realip_module: --with-http_realip_module 开启真实 IP 模块,用于获取客户端真实 IP 地址。可选值为 --with-http_realip_module 或 --without-http_realip_module。如果需要获取客户端真实 IP 地址,则必须开启此选项。 6. --with-http_addition_module: --with-http_addition_module 开启添加响应头模块,用于添加自定义的响应头信息。可选值为 --with-http_addition_module 或 --without-http_addition_module。 7. --with-http_sub_module: --with-http_sub_module 开启替换响应内容模块,用于替换响应内容中的关键字。可选值为 --with-http_sub_module 或 --without-http_sub_module。 8. --with-http_dav_module: --with-http_dav_module 开启 WebDAV 模块,用于支持 WebDAV 协议。可选值为 --with-http_dav_module 或 --without-http_dav_module。 9. --with-http_flv_module: --with-http_flv_module 开启 FLV 视频流模块,用于支持 FLV 格式的视频流。可选值为 --with-http_flv_module 或 --without-http_flv_module。 10. --with-http_mp4_module: --with-http_mp4_module 开启 MP4 视频流模块,用于支持 MP4 格式的视频流。可选值为 --with-http_mp4_module 或 --without-http_mp4_module。 11. --with-http_gunzip_module: --with-http_gunzip_module 开启 Gzip 解压缩模块,用于支持 Gzip 压缩格式。可选值为 --with-http_gunzip_module 或 --without-http_gunzip_module。 12. --with-http_gzip_static_module: --with-http_gzip_static_module 开启 Gzip 静态文件压缩模块,用于对静态文件进行 Gzip 压缩。可选值为 --with-http_gzip_static_module 或 --without-http_gzip_static_module。 13. --with-http_stub_status_module: --with-http_stub_status_module 开启状态页面模块,用于查看 nginx 的状态信息。可选值为 --with-http_stub_status_module 或 --without-http_stub_status_module。 14. --with-stream: --with-stream 开启 TCP/UDP 代理模块,用于支持 TCP/UDP 协议。可选值为 --with-stream 或 --without-stream。 15. --with-stream_ssl_module: --with-stream_ssl_module 开启 SSL/TLS 功能,支持 TCP/UDP 的 SSL/TLS 加密。可选值为 --with-stream_ssl_module 或 --without-stream_ssl_module。 16. --with-http_v2_module: --with-http_v2_module 开启 HTTP/2 模块,用于支持 HTTP/2 协议。可选值为 --with-http_v2_module 或 --without-http_v2_module。 17. --with-pcre: --with-pcre 指定使用 PCRE 库进行正则表达式匹配。可选值为 --with-pcre 或 --without-pcre。 18. --with-openssl=/www/server/nginx/src/openssl: --with-openssl 指定使用 OpenSSL 库进行 SSL/TLS 加密。可选值为 OpenSSL 库的路径。如果开启了 SSL/TLS 功能,则必须指定此选项。 19. --with-stream_ssl_preread_module: --with-stream_ssl_preread_module 开启 TCP/UDP SSL/TLS 握手前置模块,用于在握手前解析 SSL/TLS 协议。可选值为 --with-stream_ssl_preread_module 或 --without-stream_ssl_preread_module。 20. --with-http_image_filter_module: --with-http_image_filter_module 开启图片处理模块,用于对图片进行缩放、裁剪等操作。可选值为 --with-http_image_filter_module 或 --without-http_image_filter_module。 21. --with-ipv6: --with-ipv6 开启 IPv6 支持。可选值为 --with-ipv6 或 --without-ipv6。 22. --with-ld-opt=-Wl,-E: --with-ld-opt 指定链接器选项,-Wl,-E 表示启用链接器的 export-dynamic 选项。可选值为任意链接器选项,根据实际需要进行设置。此参数会影响到 nginx 的链接器选项。 23. --with-cc-opt=-Wno-error: --with-cc-opt 指定编译器选项,-Wno-error 表示忽略编译器的错误提示。可选值为任意编译器选项,根据实际需要进行设置。此参数会影响到 nginx 的编译器选项。 24. --with-ld-opt=-ljemalloc: --with-ld-opt 指定链接器选项,-ljemalloc 表示链接 jemalloc 库。可选值为任意链接器选项,根据实际需要进行设置。此参数会影响到 nginx 的链接器选项。 25. --add-module=/www/server/nginx/src/ngx_devel_kit: --add-module 指定添加第三方模块,/www/server/nginx/src/ngx_devel_kit 为第三方模块的路径。可选值为任意第三方模块的路径,根据实际需要进行设置。此参数会影响到 nginx 的模块加载顺序。 26. --add-module=/www/server/nginx/src/lua_nginx_module: --add-module 指定添加第三方模块,/www/server/nginx/src/lua_nginx_module 为第三方模块的路径。可选值为任意第三方模块的路径,根据实际需要进行设置。此参数会影响到 nginx 的模块加载顺序。 27. --add-module=/www/server/nginx/src/ngx_cache_purge: --add-module 指定添加第三方模块,/www/server/nginx/src/ngx_cache_purge 为第三方模块的路径。可选值为任意第三方模块的路径,根据实际需要进行设置。此参数会影响到 nginx 的模块加载顺序。 28. --add-module=/www/server/nginx/src/ngx_http_substitutions_filter_module-master: --add-module 指定添加第三方模块,/www/server/nginx/src/ngx_http_substitutions_filter_module-master 为第三方模块的路径。可选值为任意第三方模块的路径,根据实际需要进行设置。此参数会影响到 nginx 的模块加载顺序。 29. --add-module=/www/server/nginx/src/nginx-dav-ext-module: --add-module 指定添加第三方模块,/www/server/nginx/src/nginx-dav-ext-module 为第三方模块的路径。可选值为任意第三方模块的路径,根据实际需要进行设置。此参数会影响到 nginx 的模块加载顺序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值