一文看懂推荐系统：排序02：Multi-gate Mixture-of-Experts (MMoE)

最新推荐文章于 2025-05-11 19:52:07 发布

冰露可乐

最新推荐文章于 2025-05-11 19:52:07 发布

阅读量3.8k

点赞数 5

分类专栏：大厂算法岗机器学习深度学习面试题大厂人工智能技术概览个性化推荐系统文章标签：机器学习推荐系统多目标模型 MMoE Google MMoE 排序多任务模型

本文链接：https://blog.csdn.net/weixin_46838716/article/details/126458980

版权

大厂算法岗机器学习深度学习面试题同时被 3 个专栏收录

122 篇文章

订阅专栏

大厂人工智能技术概览

56 篇文章

订阅专栏

个性化推荐系统

36 篇文章

订阅专栏

本文深入介绍了谷歌推荐系统中的Multi-gate Mixture-of-Experts (MMoE) 模型，该模型用于多目标排序。MMoE包含多个专家神经网络，通过门函数（gate）结合权重输出，解决多任务预测问题。然而，实践中发现MMoE可能存在极化现象，即某些专家权重接近0，导致模型失去融合优势。为解决这个问题，提出了使用dropout技术防止极化。文章强调了MMoE的实际应用效果因场景而异，并提供了系统学习推荐系统的资源和建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一文看懂推荐系统：排序02：Multi-gate Mixture-of-Experts (MMoE)

提示：最近系统性地学习推荐系统的课程。我们以小红书的场景为例，讲工业界的推荐系统。
我只讲工业界实际有用的技术。说实话，工业界的技术远远领先学术界，在公开渠道看到的书、论文跟工业界的实践有很大的gap，
看书学不到推荐系统的关键技术。
看书学不到推荐系统的关键技术。
看书学不到推荐系统的关键技术。

王树森娓娓道来**《小红书的推荐系统》**
GitHub资料连接：http://wangshusen.github.io/
B站视频合集：https://space.bilibili.com/1369507485/channel/seriesdetail?sid=2249610

提示：文章目录

文章目录

一文看懂推荐系统：排序02：Multi-gate Mixture-of-Experts (MMoE)
谷歌推荐模型：Multi-gate Mixture-of-Experts (MMoE)
gate 门函数--权重输出
MMoE实践过程中发现有问题，被极化了，就是老是只有一个专家有效，权重是001的形式
总结

谷歌推荐模型：Multi-gate Mixture-of-Experts (MMoE)

之前我介绍过最简单的多目标排序模型，

这节介绍一种改进的模型，叫做multi gate mixture of experts，缩写是MMOE，

跟上节一样，模型的输入是一个向量，包含用户特征、物品特征、统计特征还有成型特征，
在这里插入图片描述
把向量输入三个神经网络。

这三个神经网络结构相同，都是有很多全连接层组成，
但这三个神经网络不共享参数，三个神经网络各输出一个向量，三个向量叫做X1X2X3。

这三个神经网络被叫做专家，就是mixture of experts中的experts。
在这里插入图片描述

这里我是为了画图方便，用了三个专家神经网络。
在这里插入图片描述

实践中通常会试一试四个或者八个，

gate 门函数–权重输出

把下面的特征向量输入另一个神经网络，这个神经网络也有多个全连接层。
在神经网络的最后，加一个soft max激活函数突出一个三维的向量。
在这里插入图片描述

由于是soft max的输出向量的三个元素都大于零，而且相加等于一向量的三个元素，记作P1P2P3，

分别对应三个专家神经网络之后，
我们会用这三个元素作为权重，对向量X1 x2 X3做加权平均。

同样的方法把下面的特征向量送入右边的神经网络。
在这里插入图片描述

在神经网络的最后也是soft max结果函数，输出一个三维向量元素，分别记作Q1 Q2 Q3。
这三个元素，也是之后做加权平均时的权重，

接下来我们研究更上层的结构，刚才我说了P1P2 P3和Q1Q2Q三都是权重用于之后的加权平均，
对向量X1X2X3做加权平均权重是P1P2 P3，得到上面的向量，它等于P1X1加P2X2加P3X3。
在这里插入图片描述

就是三个紫色向量的加权平均，

用右边的权重Q1Q2 Q3，对向量X1X2X3做加权平均得到右边的向量，它等于Q1X1加Q2X2加Q3X3，
它也是三个紫色向量的加权平均，
在这里插入图片描述

用左边还是右边的向量输出，取决于具体的任务，比如神经网络输出对点击率的是一个介于零到一之间的实数，
把右边的向量输入另一个神经网络，这个神经网络会输出另一个指标的预估，
比如对点赞率的预估也是介于零到一之间的实数。
在这里插入图片描述

我这里假设多目标模型只有点击率和点赞率这两个目标，所以用了P和Q这两组权重，假如有十个目标，那么就要用十组权重。

到此为止，我已经讲完了MMOE的模型。

结构模型很简单，就是对神经网络输出的向量X1X2X3做加权平均，
然后用加权平均得到的向量去预估某个业务指标。

在这个例子中，需要预估点击率和点赞率这两个指标。

我用了三个专家，神经网络专家。
神经网络的数量是个超参数，需要手动调。
通常来说会试一试四个和八个。

MMoE实践过程中发现有问题，被极化了，就是老是只有一个专家有效，权重是001的形式

在实践中，大家都发现MMOE有个问题。
就是soft max值约等于001，

比如：也就是说，左边的预估点击率任务只使用了第三号专家神经网络，而没有使用其他两个专家神经网络，
这样就等于没有用mix of experts，没有让三个专家神经网络的输出融合，而是简单使用了一个专家。
在这里插入图片描述

再看右边soft max的输出值接近010，
也就是说，右边的任务只使用了第二号专家神经网络，也没有对三个专家做融合，
在这里插入图片描述
整理合起来，就是：
两个任务分别使用了第二号和第三号专家神经网络。

这样的话，第一号专家神经网络就相当于死掉了，不会被用到。
在这里插入图片描述

那么MMOE就相当于一个简单的多目标模型，不会对专家做融合，失去了MMOE的优势。

我们不希望这种现象出现，当然是有办法进行去极化现象的。
如果有N个专家神经网络，那么每个softmax结果函数的输入和输出都是N维向量。
在这里插入图片描述

我们不希望看到其中一个输出的元素接近1，其余N减一个元素接近零。

解决极化现象的一种方法是dropout

在训练的过程中被soft max输出使用dropout
soft max输出的N个数值被mark的概率都是10%，
也就是说在训练的过程中，每个专家被丢弃的概率都是10%，
这样会强迫每个任务根据部分专家做预测，

如果用dropout不太可能会发生极化，否则预测的结果会特别差。

假如发生极化soft max输出的某个元素接近11000，这个元素被mask预测的结果肯定会错的离谱。

为了让预测尽量精准，神经网络会尽量避免极化的发生
，避免soft max输出的某个元素接近1
用了Dropout基本上能避免发生极化。

下面列了两篇参考文献，第一篇是Google的他们。
在这里插入图片描述

提出了MMOE模型，第二篇论文是Youtube的，他们俩一家的，
最开始Google提出了mmoe，而YouTube提出了这个解决方案。

最后提一句，不要以为把MMOE用上就一定会有提升。

我跟很多算法工程师聊过，有人用MMOE之后有提升，
有人用了之后就没有MMOE没效果的

原因不清楚，可能是实现不够好，也有可能是不适用于特定的业务场景。
如果你们公司没有用MMOE，很可能是尝试之后发现没有提升。

总结

提示：如何系统地学习推荐系统，本系列文章可以帮到你

（1）找工作投简历的话，你要将招聘单位的岗位需求和你的研究方向和工作内容对应起来，这样才能契合公司招聘需求，否则它直接把简历给你挂了
（2）你到底是要进公司做推荐系统方向？还是纯cv方向？还是NLP方向？还是语音方向？还是深度学习机器学习技术中台？还是硬件？还是前端开发？后端开发？测试开发？产品？人力？行政？这些你不可能啥都会，你需要找准一个方向，自己有积累，才能去投递，否则面试官跟你聊什么呢？
（3）今日推荐系统学习经验：如果你们公司没有用MMOE，很可能是尝试之后发现没有提升。