DS实习Week1 ---推荐系统学习（2）推荐系统分类

橘子的姐姐

已于 2023-06-18 15:47:39 修改

阅读量169

点赞数 1

文章标签：推荐算法机器学习

于 2023-06-15 21:32:34 首次发布

本文链接：https://blog.csdn.net/wwx320323200243/article/details/131236201

版权

1.基于内容的推荐

利用项目的内在品质或者固有属性来进行推荐，比如音乐的流派、类型，电影的风格、类别等，不需要构建UI矩阵。它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。直接基于项目的相似度来通过最近邻获取与目标项目最相似的项目列表，然后把用户没有行为记录并且评分高的项目推荐给特定用户。

比如，小张对物品A感兴趣，而物品A和物品C是同类物品（从物品的内容描述上判断），可以把物品C也推荐给小张。

首先需要一个效用函数来评价特定用户c对于特定项目s的评分：

根据项目的内容属性来学习到跟项目一样维度的用户属性，涉及到另一公式：

他是通过梯度下降法来最小化误差的平方损失，其中θj为所要学习的用户维度特征，Xi为项目的内容维度特征，我们所要训练的是用户j对于已有行为的项目j的训练，来使得观测数据与预测数据的误差最小。

2. 基于协同过滤的推荐

协同过滤基于假设：为特定用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户，然后将他们感兴趣的内容推荐给此用户。包括在线的协同和离线的过滤两部分。所谓在线协同，就是通过在线数据找到用户可能喜欢的物品，而离线过滤，则是过滤掉一些不值得推荐的数据，比比如推荐值评分低的数据，或者虽然推荐值高但是用户已经购买的数据。

协调过滤是推荐算法中目前最主流的种类，花样繁多，在工业界已经有了很多广泛的应用。它的优点是不需要太多特定领域的知识，可以通过基于统计的机器学习算法来得到较好的推荐效果。最大的优点是工程上容易实现，可以方便应用到产品中。目前绝大多数实际应用的推荐算法都是协同过滤推荐算法

它一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐，通常需要用到UI矩阵的信息。协同过滤推荐又可以根据是否运用机器学习的思想进一步划分为基于内存的协同过滤推荐（Memory-based CF）和基于模型的协同过滤推荐(Model-based CF)。

1）基于内存的协同过滤推荐

利用共同行为习惯的群体有相似喜好的原则

其中基于内存的推荐系统（Memory-based CF）主要是通过启发式的方法来进行推荐，主要步骤一个是相似性函数的选择，如何选择合适的相似性函数来更好的度量两个项目或者用户的相似性是关键；另一个主要步骤是如何进行推荐，最简单的推荐方法是基于大多数的推荐策略，即推荐那些大多数人产生过行为而目标用户未产生过行为的项目。

根据用户维度和项目维度的不同而分为Item-based CF和User-based CF。

Item-based CF：

比如小李对物品A、B、C给了十分好评，小王对物品A、C给了十分好评，从这些用户的喜好中分析出喜欢A的人都喜欢C，物品A、C是相似的，如果小张给了A好评，那么可以把C也推荐给小张，可简单理解为“物以群分”。

①首先需要构建UI矩阵；

②根据UI矩阵来计算列（项目维度）的相似度；

③选择特定项目最相似的k个项目构成推荐列表；

④推荐给特定用户列表中还没有发生过行为的项目。

User-based CF：

假如小李，小张对物品A、B都给了十分好评，那么可以认为小李、小张具有相似的兴趣爱好，如果小李给物品C十分好评，那么可以把C推荐给小张，可简单理解为“人以类聚”。

①首先需要构建UI矩阵；

②根据UI矩阵来计算行（用户维度）的相似度；

③选择特定用户最相似的k个用户；

④推荐给特定用户列表中还没有发生过行为而在相似用户列表中产生过行为的高频项目。

比较下基于用户的协同过滤和基于项目的协同过滤：基于用户的协同过滤需要在线找用户和用户之间的相似度关系，计算复杂度肯定会比基于基于项目的协同过滤高。但是可以帮助用户找到新类别的有惊喜的物品。而基于项目的协同过滤，由于考虑的物品的相似性一段时间不会改变，因此可以很容易的离线计算，准确度一般也可以接受，但是推荐的多样性来说，就很难带给用户惊喜了。一般对于小型的推荐系统来说，基于项目的协同过滤肯定是主流。但是如果是大型的推荐系统来说，则可以考虑基于用户的协同过滤，当然更加可以考虑我们的第三种类型，基于模型的协同过滤。

2）基于模型的协同过滤推荐

①基于矩阵分解的推荐

首先我们需要明确所要解决的问题，即对于一个M行（M个item），N列（N个user）的矩阵，当然这个矩阵是很稀疏的，即用户对于项目的评分是不充分的，大部分是没有记录的，我们的任务是要通过分析已有的数据（观测数据）来对未知数据进行预测，即这是一个矩阵补全（填充）任务。矩阵填充任务可以通过矩阵分解技术来实现。

1. Traditional SVD:

当然人们首先想到的矩阵分解技术是SVD（奇异值）分解，在这我命名为traditional SVD（传统并经典着），直接上公式：

当然SVD分解的形式为3个矩阵相乘，中间矩阵为奇异值矩阵。如果想运用SVD分解的话，有一个前提是要求矩阵是稠密的，即矩阵里的元素要非空，否则就不能运用SVD分解。很显然我们的任务还不能用SVD，所以一般的做法是先用均值或者其他统计学方法来填充矩阵，然后再运用SVD分解降维。

2. FunkSVD

刚才提到的Traditional SVD首先需要填充矩阵，然后再进行分解降维，同时存在计算复杂度高的问题，所以后来提出了FunkSVD的方法。它不再将矩阵分解为3个矩阵，而是分解为2个低秩的用户项目矩阵。

稀疏矩阵（sparse matrix）：指的是矩阵中的非零元素比较少，但不一定是低秩的。比如对角矩阵，稀疏但是却满秩。

低秩矩阵（low-rank matrix）：指的是矩阵的秩比较小，但不一定是稀疏的。比如全为1的矩阵，秩虽然小仅为1，但确实稠密矩阵。

借鉴线性回归的思想，通过最小化观察数据的平方来寻求最优的用户和项目的隐含向量表示。同时为了避免过度拟合（Overfitting）观测数据，又提出了带有L2正则项的FunkSVD，上公式：

以上两种最优化函数都可以通过梯度下降或者随机梯度下降法来寻求最优解。

3. BiasSVD:

在FunkSVD提出来之后，出现了很多变形版本，其中一个相对成功的方法是BiasSVD，顾名思义，即带有偏置项的SVD分解，还是直接怼公式：

它是基于这样的假设：某些用户会自带一些特质，比如天生愿意给别人好评，心慈手软，比较好说话，有的人就比较苛刻，总是评分不超过3分；同时也有一些这样的项目，一被生产便决定了它的地位，有的比较受人们欢迎，有的则被人嫌弃，这也正是提出用户和项目偏置项的原因；项亮给出的解释是：对于一个评分系统有些固有属性和用户物品无关，而用户也有些属性和物品无关，物品也有些属性与用户无关。

4. SVD++:

人们后来又提出了改进的BiasSVD，还是顾名思义，两个加号，我想是一个加了用户项目偏置项，另一个是在它的基础上添加了用户的隐式反馈信息，还是先上公式：

它是基于这样的假设：用户对于项目的历史评分记录或者浏览记录可以从侧面反映用户的偏好，比如用户对某个项目进行了评分，可以从侧面反映他对于这个项目感兴趣，同时这样的行为事实也蕴含一定的信息。其中N(i)为用户i所产生行为的物品集合；ys为隐藏的对于项目j的个人喜好偏置，是一个我们所要学习的参数；至于|N(i)|的负二分之一次方是一个经验公式。

5. BiasSVDwithU：

一种带有用户平滑项的SVD分解方法：

它是基于这样的假设：相似的用户所学到的用户隐含特征向量应该更相似，即在现实空间中两个相似的用户投影到测度空间上仍然保持相近的距离。

②用关联算法做协同过滤

一般我们可以找出用户购买的所有物品数据里频繁出现的项集活序列，来做频繁集挖掘，找到满足支持度阈值的关联物品的频繁N项集或者序列。如果用户购买了频繁N项集或者序列里的部分物品，那么我们可以将频繁项集或序列里的其他物品按一定的评分准则推荐给用户，这个评分准则可以包括支持度，置信度和提升度等。

Apriori算法原理总结 - 刘建平Pinard - 博客园 (cnblogs.com)

FP Tree算法原理总结 - 刘建平Pinard - 博客园 (cnblogs.com)

PrefixSpan算法原理总结 - 刘建平Pinard - 博客园

③用聚类算法做协同过滤

用聚类算法做协同过滤就和前面的基于用户或者项目的协同过滤有些类似了。我们可以按照用户或者按照物品基于一定的距离度量来进行聚类。如果基于用户聚类，则可以将用户按照一定距离度量方式分成不同的目标人群，将同样目标人群评分高的物品推荐给目标用户。基于物品聚类的话，则是将用户评分高物品的相似同类物品推荐给用户。

K-Means聚类算法原理

BIRCH聚类算法原理

DBSCAN密度聚类算法

谱聚类（spectral clustering）原理总结

④用分类算法做协同过滤

如果我们根据用户评分的高低，将分数分成几段的话，则这个问题变成分类问题。比如最直接的，设置一份评分阈值，评分高于阈值的就是推荐，评分低于阈值就是不推荐，我们将问题变成了一个二分类问题。虽然分类问题的算法多如牛毛，但是目前使用最广泛的是逻辑回归。因为逻辑回归的解释性比较强，每个物品是否推荐我们都有一个明确的概率放在这，同时可以对数据的特征做工程化，得到调优的目的。目前逻辑回归做协同过滤在BAT等大厂已经非常成熟了。

逻辑回归原理小结

朴素贝叶斯算法原理小结

⑤用回归算法做协同过滤

用回归算法做协同过滤比分类算法看起来更加的自然。我们的评分可以是一个连续的值而不是离散的值，通过回归模型我们可以得到目标用户对某商品的预测打分。

线性回归原理小结

决策树算法原理(下)

支持向量机原理(五)线性支持回归

⑥用神经网络做协同过滤

用神经网络乃至深度学习做协同过滤应该是以后的一个趋势。目前比较主流的用两层神经网络来做推荐算法的是限制玻尔兹曼机(RBM)。在目前的Netflix算法比赛中， RBM算法的表现很牛。当然如果用深层的神经网络来做协同过滤应该会更好，大厂商用深度学习的方法来做协同过滤应该是将来的一个趋势。后续我会专门开篇来讲讲RBM。

⑦用图模型做协同过滤

用图模型做协同过滤，则将用户之间的相似度放到了一个图模型里面去考虑，常用的算法是SimRank系列算法和马尔科夫模型算法。对于SimRank系列算法，它的基本思想是被相似对象引用的两个对象也具有相似性。算法思想有点类似于大名鼎鼎的PageRank。而马尔科夫模型算法当然是基于马尔科夫链了，它的基本思想是基于传导性来找出普通距离度量算法难以找出的相似性。后续我会专门开篇来讲讲SimRank系列算法。　

⑧用隐语义模型做协同过滤

隐语义模型主要是基于NLP的，涉及到对用户行为的语义分析来做评分推荐，主要方法有隐性语义分析LSA和隐含狄利克雷分布LDA。

3. 基于混合的推荐

基于混合的推荐，顾名思义，是对以上算法的融合，像淘宝既有基于内容的推荐也有协同过滤的推荐。具体怎么融合还是要结合具体的应用场景，包括是对特征的融合还是对算法层面的融合。机器学习模型常用的三种模型融合方法：Bagging、Boosting和Stacking。

Bagging（装袋）方法

该方法通过重采样技术生成若干个不同的子训练集，然后在每个训练集上训练一个分类器，然后采用投票的方式取大多数的结果为模型的最终结果。

Boosting（强化提升）方法

每个训练样例都有权重，每次训练新分类器的时候都着重训练那些上一次分类过程中分错的样例，权重会随着迭代次数的变化而变化。模型更像是有了记忆能力，加大力度惩罚那些在上一轮不乖的样例而使得他们越来越听话。

Stacking（堆叠）方法

每个分类器首先做一遍决策，然后将分类器们的决策送到更高一层的模型中，把他们当做特征再进行一次训练。每个单独分类器的输出会作为更高层分类器的输入，更高层分类器可以判断如何更好的合并这些来自低层的输出。模型更像是神经网络中的轴突，低层的输出作为高层的输入。

【具体思路】给定一个train数据集和一个test数据集，我们的任务是分类。①首先需要确定基模型，在这选择KNN，DecisionTree和SVM三个；②其次是要把train数据集分成5折的交叉验证，4份用来训练，1份用来交叉验证；③选择一个基模型KNN，然后在train数据集上做交叉验证，每次用4N/5来训练，N/5来测试，共测试5次，这样就会得到整个train数据集上的预测；同样用每次训练好的模型来预测test，那么可以得到5个对于test的预测，然后取平均作为结果；⑤重复步骤3、4，这样会得到对于train的3列新的特征表达（每一列是一个基模型的预测结果），同理也会得到测试集的3列新的特征表达；⑥将新的3列train特征作为第二层模型（在这我们用LR）的输入，再次进行训练；⑦用test上3列新的特征作为输入，送入训练好的模型来预测结果。

有几个基模型，就会对整个train数据集生成几列新的特征表达。同样，也会对test有几列新的特征表达。

4. 基于人口统计学的推荐

这一类是最简单的推荐算法了，它只是简单的根据系统用户的基本注册信息发现用户的相关程度，然后进行推荐，目前在大型系统中已经较少使用。

5. 基于规则的推荐

主要根据简单的规则或者领域知识来进行推荐，比如热门推荐等，这类算法常见的比如基于最多用户点击，最多用户浏览等，属于大众型的推荐方法，在目前的大数据时代并不主流。

橘子的姐姐

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DS实习Week1 ---推荐系统学习（2）推荐系统分类

首先我们需要明确所要解决的问题，即对于一个M行（M个item），N列（N个user）的矩阵，当然这个矩阵是很稀疏的，即用户对于项目的评分是不充分的，大部分是没有记录的，我们的任务是要通过分析已有的数据（观测数据）来对未知数据进行预测，即这是一个矩阵补全（填充）任务。模型更像是神经网络中的轴突，低层的输出作为高层的输入。他是通过梯度下降法来最小化误差的平方损失，其中θj为所要学习的用户维度特征，Xi为项目的内容维度特征，我们所要训练的是用户j对于已有行为的项目j的训练，来使得观测数据与预测数据的误差最小。
复制链接

扫一扫