文献:Are You Inflfluenced by Others When Rating? Improve Rating Prediction by Conformity ModelingYiming Liu , Xuezhi Cao , Yong Yu Apex Data and Knowledge Management Lab Dept. of Computer Science and Engineering Shanghai Jiao Tong University, Shanghai, China goblinliu,cxz,yyu@apex.sjtu.edu.cn
在线从众建模的好处是多方面的。
首先,它让我们有机会更好地了解用户的上网行为。接下来,我们可以消除一致性的影响,恢复用户对商品的真实偏好,从而改进个性化推荐系统。据我们所知,目前还没有将在线一致性模型与传统用户偏好模型结合起来以提高推荐系统质量的工作。
目标是建立用户一致性模型,并改进在线评级网站的评级预测。
在本文中,我们的目标是建立用户一致性模型,并改进在线评级网站的评级预测。我们首先使用真实数据进行分析,以显示在线整合的存在。我们得出结论,从众心理确实对评分有很大的影响。然后通过整合一致性建模和矩阵分解技术来提高评级预测的准确性。具体来说,我们通过考虑群体规模、一致性和凝聚力来建模从众的强度。为了进行分析和评估,我们收集并发布了一个大规模的真实数据集。实验表明,我们的整合模型比现有的非整合方法的RMSE和MAE分别高出11.72%和9.15%。
实验证明从众性确实存在
我们的方法基于矩阵分解,这是最广泛使用的评级预测技术。传统的模型通过低维度的潜在因素来捕捉用户偏好和商品特征。用户u对项目i的评价被建模和估计为:
其中,bu, bi分别是全局/用户/物品偏差。Pu, Qi ∈ RK 是潜在因子。
损失函数:
其中Θt是参数集。实验和在线应用都表明,矩阵分解可以成功地捕捉用户对产品的偏好。
我们没有直接使用基于偏好的估计作为评级建模(ˆrui = tui),而是将其与一致性建模相结合。
具体来说,我们将用户的最终评分建模为,其中C为整合模型,tui为基于传统偏好的模型的预测,pui为用户u在对物品i评分之前收到的大众建议,ΘC为参数集。
Conformity Model - Basic (B)
我们将纯粹基于偏好的估计和由于从众而产生的公众舆论影响线性结合,建立用户偏差评价模型。对于公众舆论方面的影响来说,使用公式:
Cui是用户u评价电影i前电影的评分数量,aui是平均评分,dui是评分分布。
在基本模型中,我们只考虑平均评级aui。我们使用超参数ω来调节一致性的强度。评级预测模型现在是:
我们采用随机梯度下降进行参数学习。梯度和损失函数的推导与传统的矩阵分解方法基本相同,此处略过。
Conformity Model - Group Size (CS)
群体规模是从众强度建模的重要因素。少数人的意见可能是巧合,而群众的声音是不可忽视的。在评分站点场景中,小组规模是电影评分者的数量(cui)。例如,知道有5个人喜欢这部电影可能不会对用户产生很大影响。
然而,当群体规模增加到数千人时,从众心理也会增强。
因此,我们不再像基本模型中那样设置从众强度(conformity)为定值,而是根据群体规模进行建模。我们将从众强度建模为群体规模的函数。考虑到从众性的直观性质,我们设计了满足以下条件的函数:(a)非线性;(b)单调递增;(c)限定范围;(d)有一个“临界点”来模拟群体规模的“阈值”。为了计算方便,我们还要求函数是可微的。为了达到这一要求,我们采用了扩展的sigmoid型函数
ω(x)定义如下:
其中ωa, ωb控制从众强度的总体尺度,α, β控制形状以及“临界点”。模型现在变成了:
使用随机梯度下降对传统模型和从众模型进行联合参数更新。
对于传统模型的参数,它们的梯度是每个评级实例(u, i)的原始梯度乘以(1 - ω(Cui))。对于新引入的参数,其梯度如下:
Conformity Model - Cohesion (CC )
内聚性和一致性同样会影响“从众性是否会影响用户以及在多大程度上影响用户”。当达成一致意见时,人们可能会毫无理由地听从多数意见。当凝聚力很低的时候(公众意见不同),人们倾向于表达自己的观点,而不是跟随别人。在这种情况下,评级分布dui是一致性和凝聚力的指标。
我们通过使用梯度增强决策树(GBDT)来利用从众模型的评级分布。GBDT可以捕获相当复杂的非线性相关,因此适合于内聚建模。我们使用XGBoost[1]作为实现。具体地说:
未完待续