DeepSeek-V3网络模型架构图解

DeepSeek-V3网络架构的创新主要在两次,分别是在前馈层的MOE(混合专家模型)在注意力中的MHA(多头潜在注意力,一种注意力计算规模压缩技术)。

MOE(混合专家模型)

回顾最初的MOE

GShard是最早将MoE应用在Transformer上的模型,其提出的框架和思想一直影响至今。

回顾Transformer的前馈层FFN,是将注意力子层的输出作为输入,通过一个带有ReLU激活函数的两层全连接网络对输入进行更复杂的非线性变换,公式描述如下:

FFN ( x ) = ReLU ( x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x)=\text{ReLU}(xW_1+b_1)W_2+b_2 FFN(x)=ReLU(xW1+b1)W2+b2

MoE其实就是将Transformer中的FFN层替换成了MoE-layer(也可以理解成多个规模较小且稀疏的FFN层),其中每个MoE-Layer由一个gate和若干个experts组成。这里gate和每个expert都可以理解成是nn.linear形式的神经网络,图解如下:
(原图来自https://zhuanlan.zhihu.com/p/681154742)

DeepSeek中的MOE

模型架构:

不同的地方:

为了在负载均衡和模型性能之间取得更好的平衡,DeepSeek开创了一种无辅助损失的负载均衡策略:为每个专家引入一个偏差项,并将其添加到相应的亲和力分数中以确定top- K K K路由,具体来说:如果其对应的专家过载,我们将偏差项减少 b b b;如果其对应的专家负载不足,我们将偏差项增加 b b b,其中 b b b是一个称为偏差更新速度的超参数。

门控网络本质上就是一个softmax叠加一个分类网络,那么辅助loss往往就是添加一个惩罚项,对输出过大的 logits 进行惩罚,鼓励模型生成更加适度的 logits 值,防止模型生成过于极端的输出

公式描述为公式(14)改为公式(16)

引入了偏差项

MLA 多头潜在注意力

本质就是在计算注意力之前进行各种向量降维(用于降低注意力计算和后端推理的计算量)和加入旋转位置编码(RoPE)(目的是:通过旋转矩阵将位置信息融入词向量的内积计算中,从而在注意力机制中隐式编码相对位置关系)。

参考文章

https://zhuanlan.zhihu.com/p/15153745590

https://arxiv.org/pdf/2412.19437v1

https://zhuanlan.zhihu.com/p/681154742

### 硅基流动 DeepSeekChaotBox 项目介绍 #### 一、概述 硅基流动(SiliconFlow)推出的DeepSeekChaotBox是一个面向开发者的工具箱,旨在简化大模型的应用部署过程。通过集成多种API接口和支持多样的应用场景,该工具箱能够显著降低开发者接入复杂AI基础设施的成本和技术门槛[^1]。 #### 二、主要功能特性 - **灵活易用的API设计**:支持RESTful风格请求方式,允许用户轻松调用预训练好的大型语言模型和其他类型的生成式AI模型。 - **丰富的模型选项**:除了官方推荐的标准版本外,还提供了多个不同规模和特性的变体供客户按需选用,比如`DeepSeek-R1`、`DeepSeek-V3`等特定领域优化过的子系列。 - **强大的自定义能力**:不仅限于简单的文本处理任务,在像识别、语音合成等方面也有出色表现;同时开放了一定程度上的微调权限给高级使用者自行调整内部参数以适应特殊业务场景的需求。 #### 三、技术实现细节 为了确保高性能并发处理能力和良好的用户体验,DeepSeekChaotBox采用了分布式架构设计理念: ##### 架构图解 ![architecture](https://example.com/architecture-diagram.png) - **前端交互层**:负责接收来自客户端的各种HTTP/HTTPS协议形式的数据包,并做初步解析验证工作; - **中间件服务层**:作为连接前后端之间的桥梁角色存在,承担着诸如负载均衡分配计算资源池中的节点实例、缓存热点数据加快响应速度等功能模块; - **后端运算单元组**:由大量GPU服务器集群构成的核心算力支撑部分,专门用于执行复杂的机器学习算法推理操作; - **持久化存储库**:保存所有必要的元数据记录以及长期历史档案资料以便日后查询统计分析之用。 ```python import requests def call_deepseek_api(api_key, model_name="deepseek-v3", prompt="", max_tokens=50): url = "https://api.siliconflow.com/v1/models/{model}/completions".format(model=model_name) headers = { 'Authorization': f'Bearer {api_key}', 'Content-Type': 'application/json' } payload = {"prompt": prompt, "max_tokens": max_tokens} response = requests.post(url=url, json=payload, headers=headers).json() return response['choices'][0]['text'] if 'choices' in response else None ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十有久诚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值