一、协同过滤概念
不论在淘宝还是京东,你浏览了/购买了某个商品A,后面几天你在该app内总是会在首页看到商品A和商品A相似的商品,背后支撑这种能力的就是推荐系统,而其推荐算法可能就是协同过滤。(注:app内的这种广告推荐能力是可以被关闭的,感谢人民政府)
核心思想
物以类聚,人以群分
两个思考角度:
1)与你喜好类似的 人 喜欢的东西 可能你也喜欢 ——user-based CF
2)跟你喜欢的 东西 相似的东西 可能你也喜欢 ——item-based CF
后续章节默认围绕user-based CF进行讲解,最后章节会简单介绍item-based CF计算过程
名词释义
协同:协, 众之同和也。同, 合会也——《说文》,协调两个或者两个以上的不同资源或者个体,协同一致地完成某一目标的过程或能力。
协同过滤:将许多用户和物品的相关信息汇集到一起,找出相同或相似的喜好物品,将他们从这个大集合中过滤出来。——个人解释
二、基于协同过滤算法的推荐流程
2.1 数据收集&整合
使用该算法的前提是经历过基础数据的收集沉淀,协同过滤算法主要使用的数据是用户对商品的交互信息,如购买、评分等可被量化的信息。
购买行为,如购买过商品A记为1,未购买过商品A记为0
评分行为,如每个用户对商品A的独立评分
按照评分行为,最高评分为5分,我们按照不同用户和不同商品构建透视图表——也叫矩阵:<举例商品粒度较粗>
口红 |
香水 |
粉底 |
眼霜 |
面霜 |
洗发水 |
洗面奶 |
护发素 |
|
小明 |
4 |
5 |
4 |
5 |
||||
小熊 |
5 |
3 |
4 |
2 |
4 |
|||
小璇 |
1 |