推荐系统实战（协同过滤算法与推荐知识补充）

lwx_ppp

已于 2022-11-28 13:29:32 修改

阅读量905

点赞数

分类专栏：推荐系统实战文章标签：算法人工智能推荐算法

于 2022-11-23 13:17:25 首次发布

本文链接：https://blog.csdn.net/weixin_45636780/article/details/127978020

版权

推荐系统实战专栏收录该内容

4 篇文章 0 订阅

订阅专栏

协同过滤算法构建

1.构建流程

DATA:
显示数据：Rating、Comment
隐形数据：Page view、Search log、Click、car event
Feature:
用户–项目交互矩阵或评分矩阵：

用户\项目	项目1	项目2	项目3	项目4	项目5
用户1	0	1	0	0	1
用户2	0	0	0	0	1
用户3	1	0	0	1	1
用户4	0	1	0	0	0
用户5	0	0	0	0	0
用户6	0	1	1	0	1

训练模型：
依据应用场景调整相应算法
预测结果：
得出预测评分进行排序

2.协同过滤

算法思想：

物以类聚，人以群分
基本的协同过滤推荐算法基于以下假设：
“跟你喜好相似的人喜欢的东西你也很有可能喜欢” ：基于用户的协同过滤推荐（User-based CF）
“跟你喜欢的东西相似的东西你也很有可能喜欢 ”：基于物品的协同过滤推荐（Item-based CF）

步骤：

1.找出最相似的人或物品：TOP-N相似的人或物品：
通过计算两两的相似度来进行排序，即可找出TOP-N相似的人或物品
2.根据相似的人或物品产生推荐结果:
利用TOP-N结果生成初始推荐结果，然后过滤掉用户已经有过记录的物品或明确表示不感兴趣的物品

示例：

相似度计算方法：

关于相似度计算这里先用一个简单的思想：如有两个同学X和Y，X同学爱好[足球、篮球、乒乓球]，Y同学爱好[网球、足球、篮球、羽毛球]，可见他们的共同爱好有2个，那么他们的相似度可以用：2/3 * 2/4 = 1/3 ≈ 0.33 来表示。
欧氏距离：
$E(p,q)=\sqrt{\sum_{i=1}^n{(p_i-q_i)^2}}$
欧氏距离的值非负, 最大值正无穷, 通常计算相似度的结果希望是[-1,1]或[0,1]之间,一般可以使用如下转化公式: $\frac{1}{1+E(p,q)}$

余弦相似度:
$cos(\theta)=\frac{A*B}{\mid A\mid\mid B \mid}$
通过计算两个向量的夹角余弦值来评估他们的相似度,余弦相似度的特点, 与向量长度无关。

皮尔逊相关系数:
$Pearson=\frac{p与q的协方差}{p的标准差*q的标准差}= \frac {\sum_{i=1}^n{(p_i-\overline{p})*(q_i-\overline{q})}}{\sqrt{\sum_{i=1}^n (p_i-\overline{p})^2}\sqrt{\sum_{i=1}^n (q_i-\overline{q})^2}}$
实际上也是一种余弦相似度, 不过先对向量做了中心化, 向量a b 各自减去向量的均值后, 再计算余弦相似度;皮尔逊相关系数度量的是两个变量的变化趋势是否一致, 不适合计算布尔值向量之间的相关度;

杰卡德相似度:
$\frac{\mid A \cap B \mid}{\mid A\cup B \mid}$
两个集合的交集元素个数在并集中所占的比例, 非常适用于布尔向量表示；
在这里插入图片描述

余弦相似度适合用户评分数据(实数值), 杰卡德相似度适用于隐式反馈数据(0,1布尔值)(是否收藏,是否点击,是否加购物车)
在这里插入图片描述

代码：

UsersCF.py


# 步骤如下：
#1.数据集
#2.用户之间相似度   -->datafarme
#3.用户topN相似用户 -->字典
#4.生成推荐结果（1.每个用户的相似用户 2.相似用户的消费项目 3.过滤用户已消费项目）
import pandas as pd
import numpy as np
from pprint import pprint
#Perpare dataset
users = ['User1','User2','User3','User4','User5']
items = ['Item A','Item B','Item C','Item D','Item E']
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]
#DataFrame 是一个表格型的数据结构
df = pd.DataFrame(datasets,				
                  columns=items,
                  index=users)
print(df)

# Caculate user similarity
from sklearn.metrics.pairwise import pairwise_distances
user_similar = 1 - pairwise_distances(df.values,metric="jaccard")
user_similar = pd.DataFrame(user_similar,columns=users,index=users)
print("用户两两之间相似度")
print(user_similar)

#Top_N similar users
topN_users = {}
for i in user_similar.index:
    _df = user_similar.loc[i].drop([i])     #loc[columns：index] drop是去除
    _df_sorted = _df.sort_values(ascending=False)   #排列
    top2 = list(_df_sorted.index[:2])
    topN_users[i] = top2
print("Top2相似用户:")
pprint(topN_users)

#Generate recommendation results
rs_results = {}
for user,sim_users in topN_users.items(): #1.每个user的相似用户
    rs_result = set()                     #set()创建无序不重复元素集
    for sim_user in sim_users:            #2.相似用户消费过的项目
        # 构建初始的推荐结果
        dfsimuser_row=df.loc[sim_user]                                 #找到sim_users中的其中一个sim_user的一行消费记录, df是消费记录
        dfsimuser_row[dfsimuser_row==0] = np.nan                       #把他的记录中的0替换成nan缺失值
        rs_result = rs_result.union(set(dfsimuser_row.dropna().index)) #再把nan删除，返回对应的索引  union合并，无重复
    # 过滤掉已经购买过的物品
    dfuser_row = df.loc[user]
    dfuser_row[dfuser_row==0] = np.nan
    rs_result -= set(dfuser_row.dropna().index)
    rs_results[user] = rs_result
print("最终推荐结果：")
pprint(rs_results)

运行结果：
用户两两之间相似度：
          User1  User2     User3  User4  User5
User1  1.000000   0.50  0.666667    0.2    0.4
User2  0.500000   1.00  0.250000    0.5    0.4
User3  0.666667   0.25  1.000000    0.0    0.5
User4  0.200000   0.50  0.000000    1.0    0.4
User5  0.400000   0.40  0.500000    0.4    1.0
Top2相似用户:
{'User1': ['User3', 'User2'],
 'User2': ['User1', 'User4'],
 'User3': ['User1', 'User5'],
 'User4': ['User2', 'User5'],
 'User5': ['User3', 'User1']}
最终推荐结果：
{'User1': {'Item E'},
 'User2': {'Item C', 'Item B'},
 'User3': {'Item D', 'Item E', 'Item B'},
 'User4': {'Item A', 'Item C'},
 'User5': {'Item D'}}

ItemsCF.py

#1.数据集
#2.项目之间相似度   -->datafarme
#3.项目topN相似项目 -->字典
#4.生成推荐结果（1.每个用户的消费项目 2.消费项目的相似项目 3.过滤用户已消费项目）
from operator import index
import pandas as pd
import numpy as np
from pprint import pprint

#构造数据集
users = ['User1','User2','User3','User4','User5']
items = ['Item A','Item B','Item C','Item D','Item E']
#用户购买记录数据集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]
df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)

#计算项目之间相似度
from sklearn.metrics.pairwise import pairwise_distances
item_similar = 1 - pairwise_distances(df.T.values,metric="jaccard")
item_similar = pd.DataFrame(item_similar,columns=items,index=items)
print("物品两两之间相似度")
print(item_similar)

#生成topN相似的项目
topN_items = {}
for i in item_similar.index:
    #取每一列去除自己，并排序
    _df = item_similar.loc[i].drop([i])
    _df_sorted = _df.sort_values(ascending=False)
    top2 = list(_df_sorted.index[:2])
    topN_items[i] = top2
print("Top2相似物品:")
pprint(topN_items)

#生成推荐结果
rs_results = {}
for user in df.index:   #1.每个user消费过的项目 
    rs_result = set()
    items_result = set()
    dfitem = df.loc[user]
    dfitem[dfitem == 0] = np.nan
    items_result = items_result.union(set(dfitem.dropna().index))
    for item in items_result:#2.每个项目的相似项目之和
        rs_result = rs_result.union(topN_items[item])
    #3.过滤掉用户消费过的项目
    dfuser_row = df.loc[user]
    dfuser_row[dfuser_row==0] = np.nan
    rs_result -= set(dfuser_row.dropna().index)
    rs_results[user] = rs_result
print("最终推荐结果：")
pprint(rs_results)

运行结果：
物品两两之间相似度
        Item A    Item B  Item C  Item D    Item E
Item A    1.00  0.200000    0.75    0.40  0.400000
Item B    0.20  1.000000    0.25    0.25  0.666667
Item C    0.75  0.250000    1.00    0.20  0.200000
Item D    0.40  0.250000    0.20    1.00  0.500000
Item E    0.40  0.666667    0.20    0.50  1.000000
Top2相似物品:
{'Item A': ['Item C', 'Item D'],
 'Item B': ['Item E', 'Item C'],
 'Item C': ['Item A', 'Item B'],
 'Item D': ['Item E', 'Item A'],
 'Item E': ['Item B', 'Item D']}
最终推荐结果：
{'User1': {'Item E', 'Item B'},
 'User2': {'Item C', 'Item B'},
 'User3': {'Item B', 'Item D'},
 'User4': {'Item C', 'Item A'},
 'User5': {'Item D'}}

3.推荐知识补充

3.1 冷启动问题

用户冷启动

1.收集⽤户特征
⽤户注册信息：性别、年龄、地域
设备信息：定位、⼿机型号、app列表
社交信息、推⼴素材、安装来源
在这里插入图片描述

2.引导用户填写兴趣
在这里插入图片描述
3.使用其它站点的行为数据
4. 新老用户推荐策略的差异
新⽤户在冷启动阶段更倾向于热门排⾏榜，⽼⽤户会更加需要长尾推荐
Explore Exploit⼒度
使⽤单独的特征和模型预估

物品冷启动

给物品打标签
利用物品的内容信息，将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户。
在这里插入图片描述

系统冷启动

3.2 推荐系统评估

常用指标：
• 准确性 • 信任度
• 满意度 • 实时性
• 覆盖率 • 鲁棒性
• 多样性 • 可扩展性
• 新颖性 • 商业⽬标
• 惊喜度 • ⽤户留存
准确性：
评分预测：RMSE、MAE
TopN推荐：召回率、精准率
覆盖度：
信息熵对于推荐越大越好
覆盖率
多样性&新颖性&惊喜性：
多样性：推荐列表中两两物品的不相似性。（相似性如何度量？
新颖性：未曾关注的类别、作者；推荐结果的平均流⾏度
惊喜性：历史不相似（惊）但很满意（喜）
往往需要牺牲准确性
使⽤历史⾏为预测⽤户对某个物品的喜爱程度
Exploitation & Exploration 问题：
Exploitation(开发利用)：选择现在可能最佳的⽅案
Exploration(探测搜索)：选择现在不确定的⼀些⽅案，但未来可能会有⾼收益的⽅案
在做两类决策的过程中，不断更新对所有决策的不确定性的认知，优化长期的⽬标
EE问题实践
兴趣扩展: 相似话题, 搭配推荐
人群算法: userCF 用户聚类
平衡个性化推荐和热门推荐比例
随机丢弃用户行为历史
随机扰动模型参数
EE可能带来的问题
探索伤害用户体验, 可能导致用户流失
探索带来的长期收益(留存率)评估周期长, KPI压力大
如何平衡实时兴趣和长期兴趣
如何平衡短期产品体验和长期系统生态
如何平衡大众口味和小众需求