全网首篇从tensorRT-LLM MoE CUDA kernel角度理解Mixtral-8x7b的推理加速及展望

本文首发于我的公众号"AI不止算法", 原文链接位于此,欢迎关注公众号。

最近,LLM MoE非常火,Mixtral-8x7b是第一个开源的MoE,先说明一下,标题里面的“全网首篇”不能随便加,我一直在调研相关资料,发现确实没有从tensorRT-LLM角度来讲的,所以才加上了哈。

网上已经有了从模型结构和官方python源码和huggingface源码对Mixtral-8x7b作解析的优秀文章,解析得都非常好,然而,他们有两个不足点在于:

  • 一是没有区分开训练和推理来解析,这导致很多朋友不知道哪部分是训练时候做的,哪部分是推理时候做的,看了后非常混乱,对MoE还是似懂非懂

  • 二是多数都是停留在Pytorch python API的角度去解析,不是说不好,只是还比较偏上层,不利于读者深度理解大模型推理引擎层面该怎么样去实现并加速Mixtral-8x7b为代表的MoE模型

本文出于如下原因先讲讲MoE推理相关的内容:

  • 训练比推理不仅内容方面更杂,而且理解起来门槛也更高,推理很适合对MoE建立起80%的认识

  • n本人做推理多一些

已经对MoE比较熟悉的朋友,可以直接划到最后看tensorRT-LLM的实现。

一句话讲明MoE的概念

如果大家对传统机器学习算法比较熟悉,看过李沐的统计学习方法或者吴恩达的机器学习,那么应该听过bagging、boosting等集成学习方法,MoE其实也是集成学习,相较于深度神经网络(Deep Neural Network), MoE更像是宽度神经网络,如下图所示,对于MoE的结果是多个expert的输出进行加权组合得到的,router又叫gating网络,包括一个linear和softmax,起到路由的作用,分发给不同expert权重。所以AAAI22也有一篇paper叫做“Go wider instead of deeper”
在这里插入图片描述

# moe的pytorch代码
import torch
import torch.nn as nn

class Expert(nn.Module):
    def __init__(self, input_dim):
        super(Expert, self).__init__()
        self.fc = nn.Linear(input_dim, 1)
    def forward(self, x):
        return self.fc(x)
        
class MoE(nn.Module):
    def __init__(self, input_dim, num_experts):
        super(MoE, self).__init__()
        self.experts = nn.ModuleList([Expert(input_dim) for _ in range(num_experts)])
        # gating的组成
        self.gating = nn.Sequential(
            nn.Linear(input_dim, num_experts),
            nn.Softmax(dim=1)
        )

    def forward(self, x):
        # 各个expert做forward前向推理
        expert_outputs = [expert(x) f
  • 45
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值