文章目录
ConvMF
概述
深度学习在推荐系统上的运用,具体用了卷积神经网络(CNN)提取文本特征,融合PMF模型进行推荐。
具体论文见http://dm.postech.ac.kr/~cartopy/ConvMF/
用户对项目评分数据的稀疏是推荐系统质量恶化的主要因素之一。为了处理稀疏性问题,已经提出了几种推荐技术,其另外考虑辅助信息以提高评估预测的准确性。特别是,当评级数据稀少时,基于文档建模的方法通过额外使用文本数据(如评论,摘要或概要)提高了准确性。然而,由于单词模型的固有局限性,它们难以有效地利用文档的上下文信息,这导致对文档的浅薄理解。本文提出了一种新的上下文感知推荐模型,卷积矩阵分解(ConvMF),将卷积神经网络(CNN)集成到概率矩阵分解(PMF)中。因此,ConvMF可以捕获文档的上下文信息并进一步提高评分预测的准确性。我们对三个真实世界的数据集进行的广泛评估表明,即使评分数据非常稀少,ConvMF也远远优于最先进的推荐模型。我们还证明了ConvMF成功捕获文档中单词的细微差异。
左图是集成了概率矩阵分解(PMF)模型和卷积神经网络(CNN)模型的ConvMF的概率图形模型,右图是CNN模型利用项目描述的详细架构文档。 使用从CNN模型获得的文档潜在向量作为项目变量(V)的高斯分布的均值,其作为CNN和PMF之间的桥梁起着重要作用,有助于完整分析描述文档和评分。 有关更多详细信息,请参阅的论文。http://dl.acm.org/citation.cfm?id=2959165
PMF
PMF是在正则化矩阵分解的基础上,引入了概率模型进一步优化。
假设用户U和用户V的特征矩阵均服从高斯分布,
通过评分矩阵已经知道的值,得到U和V特征矩阵,
然后用特征矩阵去预测评分矩阵中的未知值。
假设
使用如下两个假设:
— 观测噪声(观测评分矩阵R和近似评分矩阵之差)为高斯分布
— 用户属性U和电影属性V均为高斯分布
函数
真实值和预测值之差符合高斯分布,那么有如下概率分布表示,
通过平移有
那么评分矩阵R的条件概率如下:
由U和V相互独立,
又有:
具体的,上述后验概率取对数为:
再通过高斯分布及其对数展开,才最终得到 上上式子
由于后验概率中的方差都是预设常数,故只有第二项和待优化的U,V有关。 最大化上述
对数后验概率,等价于最小化如下能量函数:
再参数替换,令:
得到:
其中Rij是标量,Ui,Vj都是维度为D的向量。后两项相当于约束了内部特征矩阵 U , V的范数。
标记 Iij 表示用户 i 是否对电影 j 评分。
最后,为了限制评分的范围,对高斯函数的均值施加logistic函数g(x)=1/(1+exp(−x)),其取值
在(0,1)之间。最终的能量函数是:
至此,可以使用梯度下降方法/或者解除解析解,通过∂E/∂Uik,∂E/∂Vjk求解Ui,Vj中的每一个元素。
P.S.即最大化后验概率U和V(最大可能性),等价于求下式的最小值:
等同与上述式子。
CNN无缝融合进入PMF——形成ConvMF
结果和影响
上表显示了每个测试集上五种方法的整体评级预测误差。 请注意,每个数据集都被随机分成一个训练集(80%),一个验证集(10%)和一个测试集(10%)。 “提高”表明“ConvMF”相对于最佳竞争对手的相对改进。 与三种模型相比,ConvMF和ConvMF +在所有数据集上都取得了重大改进。
预训练词嵌入模型的影响:
两幅图介绍了ConvMF的预训练词嵌入模型的影响。 左图显示了ConvMF +与ConvMF在三种不同λv数据集上的相对改进。 随着数据更加严重偏斜(即亚马逊即时视频),预先训练的词嵌入模型的影响也会增加。 请注意,高的λv值会导致ConvMF和ConvMF +尝试利用超过评分的项目描述文档。 右图显示了字词嵌入模型的维度大小对Amazon Instant Video数据集的影响。 由于模型中包含的信息越来越丰富,ConvMF +的测试误差随着预先训练的字嵌入模型的尺寸大小变得越来越小而降低。
该图显示了三种方法对spaseness数据集的ConvMF的改进。 ConvMF在所有范围内都超过了三个竞争对手,而且我们可以看到,当数据密度增加时,这些改进会增加。 这表明ConvMF的CNN已经很好地整合到PMF中,用于评估信息的推荐任务。