自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 RankMixer:工业级推荐系统中排序模型的规模化扩展

然而,在RankMixer中,传统的稀疏专家混合方案效果会下降,原因在于:(i) 均匀的k专家路由机制。Top-k选择对所有特征令牌一视同仁,导致低信息量令牌浪费计算资源,而高信息量令牌却资源不足,这阻碍了模型捕捉令牌间的差异。(ii) 专家训练不足。每个令牌的前馈网络已经将参数数量乘以令牌数;添加非共享专家会进一步激增专家数量,导致路由高度不平衡,专家训练效果不佳。本质上是低成本扩大模型参数的模型。实验、消融、在线略,具体参考论文。

2025-12-12 17:43:24 833

原创 WuKong-推荐领域的Scaling Law

在Wukong模型中,分类特征与稠密特征首先经过嵌入层,该层将这些输入转化为稠密嵌入向量。如图所示,悟空模型随后采用交互堆栈,该堆栈由统一的神经网络层构成,用于捕捉嵌入之间的交互。交互堆栈的设计灵感来源于二进制幂运算概念,使每一连续层能够捕捉指数级增长的高阶交互。交互堆栈中的每一层包含因子分解机模块(FMB)和线性压缩模块(LCB)。FMB与LCB分别接收来自上一层的输入,并将它们的输出集成作为当前层的输出。交互堆栈之后是一个最终的多层感知机(MLP)层,将交互结果映射为预测值。

2025-12-09 18:25:19 1085

原创 DCN-V2 改进的深度交叉网络及网络级排序系统的实用经验

由此一来就可将特征进行任意阶交叉,得到充分交叉后的向量结果。之后可再接入一个DNN网络(如MMOE)来做隐式交叉。

2025-12-05 11:34:45 629

原创 PPNet-借鉴LHUC的个性化推荐网络

PPNet 是 PEPNet(参数与嵌入个性化网络)中聚焦多任务参数动态优化的核心子模块,其设计直击现有多任务推荐模型 “参数共享导致的任务跷跷板效应” 痛点,通过为不同用户生成个性化 DNN 参数,实现多任务目标的精准平衡。

2025-12-03 11:44:20 1038

原创 LONGER

LONGER(Long-sequence Optimized traNsformer for GPU-Efficient Recommenders)是面向 GPU 高效推荐的长序列优化 Transformer,整合输入生成、令牌合并、混合注意力机制、训练 - 部署优化四大模块,支持端到端超长序列(长度达 10,000)建模,平衡模型表现力与计算效率,架构如图 1 所示。长序列建模的重要性:在推荐系统中,超长用户行为序列(长度>10³)能同时捕捉用户长期与短期偏好,提升推荐准确性和多样性,缓解信息茧房现象;

2025-11-25 18:17:23 987

原创 TensorFlow 2 基础知识

利用 tf.reshape 无法实现轴的交换,要交换轴,您需要使用 tf.transpose。对于 3x2x5 张量,重构为 (3x2)x5 或 3x(2x5) 都合理,因为切片不会混淆。一般来说,tf.reshape。(或添加/移除 1)。

2025-09-29 17:56:05 364

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除