论文《Product-based Neural Networks for User Response Prediction》阅读

行者^_^煜煜

已于 2022-10-18 11:09:11 修改

阅读量275

点赞数

分类专栏：论文阅读文章标签：机器学习深度学习人工智能算法推荐系统

于 2021-05-23 22:29:27 首次发布

本文链接：https://blog.csdn.net/xingzhe123456789000/article/details/117196603

版权

论文阅读专栏收录该内容

36 篇文章 15 订阅

订阅专栏

论文《Product-based Neural Networks for User Response Prediction》阅读

论文概况
Introduction
Deep Learning for CTR Estimation
Experiments

论文概况

这篇论文是上海交大发表在ICDM 2016上的一篇论文， CCF B会，提出了模型PNN。模型在因子分解机（Factorization Machines, FMs）具有较大的影响力，首先提出了product操作用于 field feature之间的 interaction，经常被引用为baseline方法。接下来，让我们一起学习一下这篇论文！

Introduction

这里我们需要指出的是，文章题目中的user response prediction在这里做出了明确的定义，是指用于预测用户做出定义的正向回应动作的概率，正向回应动作包括点击、购买等等。

Deep Learning for CTR Estimation

先贴图：
PNN
这里，我们分成三部分进行介绍。分别是未分解版IPNN，向量分解版IPNN，向量分解版OPNN。

未分解版IPNN

这里作者是对N个域（field）向量，分别两两进行内积，得到 $N\times N$ 的实数矩阵作为域之间的交互（interaction）参与模型运算。但是本文的时间复杂度和空间复杂度应该是有些问题，欢迎同学们评论区参与讨论。

原文的图片多少有点难于理解，这里放一个比较容易看的图示：
redraw-PNN

这里只显示了一个 $W_p$ ，也即 $n = 1$ ，实际上这里的映射矩阵应该有 $D_1$ 个，用于将一次项和二次项特征（即将向量内积和向量本身堆叠形成的矩阵，就是图片中一堆箭头指向的部分）进行全连接映射。

IPNN 未分解版本时间复杂度应该为：

并行：
$O(\max(N^2(D_1+M), \ \ MND_1))$
串行：
$O(N^2(D_1+M) + \ \ MND_1)$

具体如下，我们可以看到，左边一次项的空间复杂度应该是 $MND_1$ ，右边应该是 $N^2D_1$ ，因此，空间复杂度为 $O(D_1N(M+N))$ 。

另外，时间复杂度方面，左边一次项目计算内积，需要逐个进行计算，共 $D_1$ 个矩阵，应该有 $MND_1$ 次运算；右边二次项，首先计算二次项共包含 $N^2M$ 次运算，计算完成后，形成了 $N^2$ 大小的二次特征交互向量，二次向量向隐含层进行映射，需要完成 $N^2D_1$ 。因此，综合上面所有部分，如果一次项和二次项是并行着运算的，那么时间复杂度应该是 $O(\max(N^2(D_1+M), \ \ MND_1))$ ；如果一次项和二次项同时运行，那么时间复杂度就应该是两个时间复杂度之和，即 $O(N^2(D_1+M) + \ \ MND_1)$ 。

不知道为什么原文中将一次项的时间复杂度略掉了，这是我的理解，欢迎有不同的意见能够在评论区批评指正，我向你敬礼，salute。

向量分解版IPNN

这里作者指出，对于对称矩阵 $W_p^n$ ，可以使用 $W_p^n = \boldsymbol{\theta}^n {\boldsymbol{\theta}^n}^{\mathsf{T}}$

这里需要指出的是，对于一个对称矩阵 $W_p^n$ ，不一定存在向量 $\boldsymbol{\theta}^n$ 使得 $W_p^n = \boldsymbol{\theta}^n {\boldsymbol{\theta}^n}^{\mathsf{T}}$ 成立，用反证法很容易证明。

$W_p^n = \begin{gathered} \begin{bmatrix} 1 & 3 \\ 3 & 4 \end{bmatrix} \quad \end{gathered}$
给定上面的矩阵 $W_p^n$ ，无法用列向量和其转置乘积来简化，因为如果要得到对角上的元素1 和 4，那么向量 $\boldsymbol{\theta}^n$ 必须是 $(1, 2)$ （矩阵对角元素是向量对应元素的平方），但这样一来3就错误了（ $1\times2\neq3$ ）。

因此，本文使用 $K$ 维向量来代替实数 ${\theta}_n^i$ ， $\boldsymbol{\theta}_n^i \in \mathbb{R}^K$ ，表示形式使用向量内积。

向量分解版OPNN

这里不再赘述，具体形式上与IPNN类似，只不过将二次项的内积表达改为外积，这样，中间的权重矩阵就变化为 $D_1 \times N^2 \times M^2$ ，这里 $M^2$ 是指 $M$ 维的向量做外积形成的一个 $M\times M$ 的小矩阵，这样 $M\times M$ 的小矩阵一共有 $N^2$ 个（因为N个域特征两两配对）完成外积运算，这样的外积运算完成后，再映射到L1层，共有 $D_1$ 个。

这里作者同样适用了一种简化，即将 特征外积之和 使用 特征之和的外积进行简化。

Experiments

这里突出两点：

作者借鉴Net2Net模型，首先不加隐藏层和输出层，作者先对PNN的一部分进行部分预训练，预训练完之后，加上隐含层和输出层进行进一步的训练。这样模型更容易收敛。
Criteo数据集很大，作者用连续7天的样本作为训练集，连着的一天作为验证集。使用negative 下采样进行数据集缩小

行者^_^煜煜

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
论文《Product-based Neural Networks for User Response Prediction》阅读

论文《Product-based Neural Networks for User Response Prediction》阅读论文概况IntroductionDeep Learning for CTR Estimation未分解版IPNN向量分解版IPNN向量分解版OPNNExperiments论文概况这篇论文是上海交大发表在ICDM 2016上的一篇论文， CCF B会，提出了模型PNN。模型在因子分解机（Factorization Machines, FMs）具有较大的影响力，首先提出了pro
复制链接

扫一扫