论文阅读：(FNN和SNN)Deep Learning over Multi-field Categorical Data

最新推荐文章于 2024-06-30 16:12:20 发布

工藤旧一

最新推荐文章于 2024-06-30 16:12:20 发布

阅读量1.2k

点赞数 2

分类专栏： # CTR

本文链接：https://blog.csdn.net/weixin_45459911/article/details/105269508

版权

CTR 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

文章目录

一、摘要
二、介绍
三、相关工作
四、FNN模型介绍
五、SNN模型介绍
六、实验

一、摘要

前置说明：这是一篇在2016年发表的论文，提出了基于FM预训练获取离散特征embedding表示，结合DNN来进行CTR的预估。因为思想并不复杂，所以本文就只选择重要内容进行记录。

在进行用户点击率预测的时候，常用的用户反馈模型就两种——要么使用线性模型，要么手工组合高阶的特征。
但是这两种都有弊端——前者缺乏特征间的组合信息，后者会导致组合出庞大的特征空间。
所以该论文提出了FNN和SNN这两个使用DNN的新模型。
为了让DNN能有效工作，还使用了FM、RBM和DAE这3种特征变换的方法。

二、介绍

1、Introduction的第一环节——批判前者
CTR预测的线性模型，如逻辑回归，朴素贝叶斯，FTRL逻辑回归和贝叶斯逻辑回归等。所有的这些都是基于使用one-hot编码的大量稀疏特征。线性模型简单，有效，但是性能偏差，无法学习到特征之间的相互关系。
CTR预测的非线性模型可以通过特征间的组合提高模型的能力。如FMs，将二值化的特征映射成连续的低维空间，通过内积获取特征间的相互关系；如梯度提升树，通过树的构建过程，自动的学习特征的组合。然而，这些方法并不能利用所有可能的组合。另外，许多模型手工的进行特征工程，自己决定如何进行特征的组合。并且因为已有的CTR模型在对复杂数据间的潜在的模式上的表达能力是非常有限的，所以其泛化能力表现一般。

2、Introduction的第二环节——介绍自己
该论文介绍了两种深度学习模型，FNN和SNN。
FNN使用FM进行监督学习，得到嵌入层，可以有效的减少稀疏特征的维度，得到连续的稠密的特征。
SNN是通过一个使用负样本采样方法的基于采样的玻尔兹曼机或者是一个基于采样的自动编码去噪机。在嵌入层之上，构建多层的神经网络来探索潜在的数据的模式。

三、相关工作

将大型的输入向量嵌入到低维的向量空间是预测任务的一个很有效的方法，可以减少数据和模型的复杂度，提高模型的能力。FM就是类似模型。
如果使用深度学习模型，通常有两个步骤：
第一步，通过非监督学习（如限制玻尔兹曼机或者层叠的自编码去噪机）得到输入数据的分布。
第二步，使用监督学习对模型进行finetune。
该论文模型的新颖之处在于第一层的初始化，而不是使用原始的特征，维度高，稀疏度高，难以训练。

四、FNN模型介绍

1、下图便是FNN的结构图
在这里插入图片描述
从这张结构图可以看出，FNN的思想非常简单——直接在FM上接入若干全连接层。
利用DNN对特征进行隐式交叉，可以减轻特征工程的工作，同时也能够将计算时间复杂度控制在一个合理的范围内。

原文章中对该结构的输入输出介绍得很详细，我这里就找了个中文版直接截图了（这部分看原论文其实也很清晰）
在这里插入图片描述
这里面要注意的是这个向量z

是由FM训练出来的。

这是FNN模型的一大亮点：
为了加速模型的收敛，充分利用FM的特征表达能力，FNN采用了两阶段训练方式。首先，针对任务构建FM模型，完成模型参数的学习。然后，将FM的参数作为FNN底层参数的初始值。这种两阶段方式的应用，是为了将FM作为先验知识加入到模型中，防止因为数据稀疏带来的歧义造成模型参数偏差。

2、更进一步，隐含层的权重（除了FM层）可以通过预训练的RBM来进行初始化。FM的权重可以通过SGD来进行更新，我们只需要更新那些不为0的单元，这样可以减少大量的计算。通过预训练对FM层和其他的层进行初始化之后，再通过监督学习的方法进行finetune，使用交叉熵的损失函数：
在这里插入图片描述
然后通过反向传播的方法来更新权值。由于输入x中的大量的元素都是0，我们可以只更新相关的权值来加速finetune。

五、SNN模型介绍

SNN结构如下图所示
在这里插入图片描述
和FNN的区别在于底层的训练方式（表现在z的不同）。SNN的底层是个全连接层，激活函数为sigmoid。

初始化的时候，预训练了RBM和DAE，为了解决训练时的one-hot编码带来的稀疏问题，使用了基于采样的RBM和基于采样的DAE，高效的计算初始化的权值。

在训练时，不使用每个领域的全部的特征，例如city这个领域，只有一个元素是1，其他都是0，所以随机采样m个为0的元素，图2中（b）和（c）中的黑点表示的没有被采样到的为0的元素。然后使用在RBM上用对比散度，在DAE上用SGD来进行预训练，得到的稠密的特征表示作为后一层的输入。

六、实验

开源代码链接：
https://github.com/wnzhang/deep-ctr

1、数据集

使用的是iPinYou的数据集，这是一个公开的数据集。
该数据集有19.5M条数据，14.79k条的正样本，所有的特征都是类别特征。在进行one-hot编码之后，二值化特征的数量是937.67K。将这些二值化的特征输入到不同的模型中来进行对比。在实验中，分别使用了1458,22259,2261,3386号的广告以及整个数据集。

2、性能对比

在这里插入图片描述
选用的衡量指标是AUC，关于推荐系统的常用评价指标的含义可以参考
https://blog.csdn.net/weixin_45459911/article/details/105206954

3、超参数的调试

使用深度学习需要用到一些超参数，该论文展示了调试超参数的一些细节。
使用SGD进行训练，尝试了不同的学习率，1,0.1,0.01,0.001,0.0001，选择了一个最佳的在验证集上进行验证。
使用采样的SNN-RBM和SNN-DAE的时候，尝试了采样数量为m=1,2,4的情况，发现m=2是最好的。对于激活函数，尝试了线性函数，sigmoid，tanh，然后发现tanh是最好的。
（当然现在激活函数有更多的选择）

4、结构选择和正则化比较

在模型中，研究了具有3,4,5个隐层的结构，发现具有3个隐层的结构效果最好。除了增减层数外，还对比了不同的结构，在总的隐含节点相同的情况下，发现钻石型的是最好的。最后使用结构是（200,300,100）。
在这里插入图片描述
神经网络非常容易过拟合。对比了L2正则化和dropout。如下图。很显然，dropout的效果要比L2要好。

5、参数分析

模型中有两个非常重要的因素(i)层的大小的参数，决定了模型的结构(ii)dropout的比例参数，对泛化能力有较大的影响。
从图中可以看出，dropout的比例的变化，对AUC的影响是比较大的。随着dropout比例的变大，模型的能力先变好，然后显著的下降。
对于FNN来说，dropout的最佳值为0.8，对SNN来说，dropout的最佳值为0.99。

参考：
《Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction ECIR 2016》
https://blog.csdn.net/huayimeng/article/details/102498719
https://blog.csdn.net/u013019431/article/details/99241124
https://zhuanlan.zhihu.com/p/65112570
https://www.jiqizhixin.com/articles/2019-08-05-13