EMSS模型

ESMM模型利用用户行为序列数据在完整样本空间建模,避免了传统CVR模型经常遭遇的样本选择偏差和训练数据稀疏的问题,取得了显著的效果。另一方面,ESMM模型首次提出了利用学习CTR和CTCVR的辅助任务迂回学习CVR的思路。

ESMM模型由两个子网络组成:左子网络用来拟合pCVR。右子网络用来拟合pCTR,同时,两个子网络的输出相乘之后可以得到pCTCVR。因此,该网络结构共有三个子任务,分别用于输出pCTR、pCVR和pCTCVR。

共享Embedding。 CVR-task和CTR-task使用相同的特征和特征embedding,即两者从Concatenate之后才学习各自独享的参数;

隐式学习pCVR。 这里pCVR 仅是网络中的一个variable,没有显示的监督信号。

什么是one-hot  ? Embedding的作用?

独热编码(one-hot)的作用很简单,就是把特征全都用0、1来表示,直接看个例子:
有四类人:老年人、中年人、青年、幼儿
将其用独热编码进行表示
老年人:1000
中年人:0100
青年:0010
幼儿:0001

embedding层的作用是降维
降维的原理就是矩阵乘法。在卷积网络中,也可以理解为特殊全连接层操作,跟1x1卷积核有异曲同工之妙。而且通过合适的变换,embedding还能体现出距离的远近,这是one-hot做不到的。
比如做电影统计时Embedding(超人)和Embedding(蝙蝠侠)之间的距离就会很接近,但 Embedding(超人)和Embedding(名侦探柯南)的距离就会远一些。

ESMM优点:

1. 解决样本选择偏差: 在训练过程中,模型只需要预测pCTCVR和pCTR,即可更新参数,由于pCTCVR和pCTR的数据是基于完整样本空间提取的,故根据公式,可以解决pCVR的样本选择偏差。

2. 解决数据稀疏: 使用共享的embedding层,使得CVR子任务也能够从只展示没点击的样本中学习,可以缓解训练数据稀疏的问题。

 ESMM模型的优化方向:
        模型优化:论文中,子任务独立的Tower网络是纯MLP模型,可以根据自身特点设置不一样的模型,例如使用DeepFM、DIN等。
        学习优化:引入动态加权的学习机制,优化loss。
        特征优化:可构建更长的序列依赖模型,例如美团AITM信用卡业务,用户转换过程是曝光->点击->申请->核卡->激活。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值