多场景建模：阿里STAR

最新推荐文章于 2025-04-28 19:26:37 发布

巴拉巴拉朵

最新推荐文章于 2025-04-28 19:26:37 发布

阅读量2.4k

点赞数 23

分类专栏：多场景建模文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/whgyxy/article/details/135616008

版权

阿里提出了一种结合PartitionedNormalization(PN)和StarTopologyFCN的多场景建模方法，解决了不同场景下用户行为数据分布差异的问题，通过PN处理场景间的独立分布，STARFCN则共享底层网络并保持任务输出层独立。实验结果显示PN和STARFCN在多种场景下优于传统方法如BN。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多场景建模：阿里STAR

阿里提出了Partitioned Normalization、Star Topology FCN、Auxiliary Network应用到多场景建模，在各个场景上面取得不错的效果。

两个场景：

淘宝主页的banner，展示一个商品或者一个店铺或者一个品牌

猜你喜欢：双列的形式展示商品流

在这里插入图片描述

不同场景的user和item有重叠，但是user在不用的场景行为模式是不同的，简单将所有样本混合在一起训练一个共享的模型无法处理这样不同数据分布的多个场景。如果每个场景单独整一个模型，缺点显而易见：小场景的数据较少，模型很难学；场景多了后维护多个模型资源消耗和人力成本不可接受。

多任务学习针对的是数据分布相同，但是各个任务目标的label空间不同。基于此，现在的多任务学习都是基于底层的共享，但是保持任务输出层的独立性。直接应用多任务学习到多场景学习上面无法充分利用场景之间的关系，而且忽略了多个场景的数据分布差异。

总体结构如下
在这里插入图片描述

PN

为了加速训练及训练的稳定性，通常是对embedding进行batch内归一化normalization， $\gamma$ 和 $\beta$ 是可学习的缩放和偏差参数， $\mu$ 和 $\sigma^2$ 是batch内的均值和方差，测试阶段，使用移动平均统计的均值 $E$ 和方差 $Va r$ 来替换。BN假设所有样本服从独立同分布，但是多场景中，这个假设就不成立了，各个场景内的样本服从本场景的独立同分布。
$\mathbf z‘ = \gamma \frac{\mathbf z - E}{\sqrt{Var + \epsilon}} + \beta$

提出partitioned normalization (PN) 来解决，训练时每个batch来自第 $p$ 个场景， $\gamma$ 和 $\beta$ 是全局的缩放和偏差参数， $\gamma_p$ 和 $\beta_p$ 是场景相关的缩放和偏差参数，在测试阶段，也使用各场景移动平均的均值 $E_p$ 和方差 $Var_p$

最低0.47元/天解锁文章