推荐系统
基础知识
相似度计算
余弦相似度
调整余弦相似度(修正余弦相似度)
解决:比如用户A、B和C对三个物品的评分分别为(1,4,0)、(3,5,1)和(8,9,2),用余弦相似度计算得到A和B用户之间的相似度为0.874
实质上是防止高数值的user与低数值低数量的user过于相似,因此引入均值概念来消去影响
皮尔逊 Pearson相关系数
算式相等,但是值不等
特征处理
归一化
离散化
等步长
等频
类别特征处理
One-Hot编码/哑变量
直接平铺增加特征
膨胀特征空间
时间特征处理
离散
连续
统计特征
加减平均
分位线
次序性
比例类
反馈数据
UGC简单推荐
TF-IDF
词频-逆文档频率
term frequency–inverse document frequency
用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
词频(TF) 表示词条(关键字)在文本中出现的频率。
逆向文件频率 (IDF) : 某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
TF-IDF倾向于过滤掉常见的词语
UGC参考TF-IDF
增加热门商品的惩罚
协同过滤
隐语义模型(latent Factor Model ,LFM)
隐藏的特征
降维后的矩阵代表了用户和商品的隐藏特特征
降维方法——矩阵因子分解
基于物品和用户本身的,这种推荐引擎将每个用户和每个物品都当作独立的实体,预测每个用户对于每个物品的喜好程度,这些信息往往是用一个二维矩阵描述的。由于用户感兴趣的物品远远小于总物品的数目,这样的模型导致大量的数据空置,即我们得到的二维矩阵往往是一个很大的稀疏矩阵。同时为了减小计算量,我们可以对物品和用户进行聚类, 然后记录和计算一类用户对一类物品的喜好程度,但这样的模型又会在推荐的准确性上有损失。
基于关联规则的推荐(Rule-based Recommendation):关联规则的挖掘已经是数据挖掘中的一个经典的问题,主要是挖掘一些数据的依赖关系,典型的场景就是”购物篮问题”,通过关联规则的挖掘,我们可以找到哪些物品经常被同时购买,或者用户购买了一些物品后通常会购买哪些其他的物品,当我们挖掘出这些关联规则之后,我们可以基于这些规则给用户进行推荐。
基于模型的推荐(Model-based Recommendation):这是一个典型的机器学习的问题,可以将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好的模型,这样以后用户在进入系统,可以基于此模型计算推荐。这种方法的问题在于如何将用户实时或者近期的喜好信息反馈给训练好的模型,从而提高推荐的准确度。
csdn编辑不友好,等word写完一次性更新