2021-03-16

最新推荐文章于 2021-11-18 14:46:50 发布

庚|流年的函数

最新推荐文章于 2021-11-18 14:46:50 发布

阅读量48

点赞数

本文链接：https://blog.csdn.net/weixin_43868001/article/details/114903712

版权

Deep Crossing

DeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐，用户在输入搜索词之后，搜索引擎除了返回相关结果，还返回与搜索词相关的广告，Deep Crossing的优化目标就是预测对于某一广告，用户是否会点击，依然是点击率预测的一个问题。

这种场景下，我们的输入一般会有类别型特征，比如广告id，和数值型特征，比如广告预算，两种情况。对于类别型特征，我们需要进行one-hot编码处理，而数值型特征一般需要进行归一化处理，这样算是把数据进行了一个简单清洗。 DeepCrossing模型就是利用这些特征向量进行CRT预估，那么它的结构长啥样, 又是怎么做CTR预估的呢？这又是DeepCrossing的核心内容。

为了完成端到端的训练， DeepCrossing模型要在内部网络结构中解决如下问题：

离散类特征编码后过于稀疏，不利于直接输入神经网络训练，需要解决稀疏特征向量稠密化的问题
如何解决特征自动交叉组合的问题
如何在输出层中达成问题设定的优化目标
DeepCrossing分别设置了不同神经网络层解决上述问题。模型结构如下

下面分别介绍一下各层的作用：

2.1 Embedding Layer
将稀疏的类别型特征转成稠密的Embedding向量，Embedding的维度会远小于原始的稀疏特征向量。 Embedding是NLP里面常用的一种技术，这里的Feature #1表示的类别特征(one-hot编码后的稀疏特征向量）， Feature #2是数值型特征，不用embedding，直接到了Stacking Layer。关于Embedding Layer的实现，往往一个全连接层即可，Tensorflow中有实现好的层可以直接用。和NLP里面的embedding技术异曲同工，比如Word2Vec，语言模型等。

2.2 Stacking Layer
这个层是把不同的Embedding特征和数值型特征拼接在一起，形成新的包含全部特征的特征向量，该层通常也称为连接层, 具体的实现如下，先将所有的数值特征拼接起来，然后将所有的Embedding拼接起来，最后将数值特征和Embedding特征拼接起来作为DNN的输入，这里TF是通过Concatnate层进行拼接。

2.3 Multiple Residual Units Layer
该层的主要结构是MLP，但DeepCrossing采用了残差网络进行的连接。通过多层残差网络对特征向量各个维度充分的交叉组合，使得模型能够抓取更多的非线性特征和组合特征信息，增加模型的表达能力。残差网络结构如下图所示：

在这里插入图片描述
3. 总结
这就是DeepCrossing的结构了，比较清晰和简单，没有引入特殊的模型结构，只是常规的Embedding+多层神经网络。但这个网络模型的出现，有革命意义。DeepCrossing模型中没有任何人工特征工程的参与，只需要简单的特征处理，原始特征经Embedding Layer输入神经网络层，自主交叉和学习。相比于FM，FFM只具备二阶特征交叉能力的模型，DeepCrossing可以通过调整神经网络的深度进行特征之间的“深度交叉”，这也是Deep Crossing名称的由来。

如果是用于点击率预估模型的损失函数就是对数损失函数：

$logloss=-\frac 1N\sum_1^N(y_ilog(p_i)+(1-y_i)log(1-p_i)$ 其中 $y_i$ 表示真实的标签（点击或未点击）， $p_i$ 表示Scoring Layer输出的结果。但是在实际应用中，根据不同的需求可以灵活替换为其他目标函数。

庚|流年的函数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-03-16

Deep CrossingDeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐，用户在输入搜索词之后，搜索引擎除了返回相关结果，还返回与搜索词相关的广告，Deep Crossing的优化目标就是预测对于某一广告，用户是否会点击，依然是点击率预测的一个问题。这种场景下，我们的输入一般会有类别型特征，比如广告id，和数值型特征，比如广告预算，两种情况。对于类别型特征，我们需要进行one-hot编码处理，而数值型特征一般需要进行归一化处理，这样算是把数据进行了一个简单清洗。
复制链接

扫一扫