基于item的协同过滤

基于 item 的推荐算法分析

1 概述

基于 item 的推荐方法假设:能够引起用户兴趣的 item ,必定与其评分高的 item 相似。主要包括三个步骤: (1) 得到每个用户对 item 的评分数据; (2) item 进行最近邻的搜索; (3) 产生推荐。

相比基于用户的推荐方法,基于 item 的推荐方法提高了协同过滤方法的扩展性和性能。基于用户的推荐方法会随着用户数量的不断增加,在海量数据的余户范围内进行“最近邻搜索”会成为算法的瓶颈,难以做实时的 item 推荐。而基于 item 的推荐方法通过计算 item 之间的相似性来替代计算用户之间的相似性。 Item 之间的相似性比用户之间的相似性更稳定,可以离线的计算 item 之间的相关性。

2 Mahout 中基于 item 的算法流程

2.1 参数

--output 输出路径

--input   输入路劲

-n      为每个用户推荐的产品数

-u      待推荐的用户列表

-i      待推荐的 item 列表

-f      过滤指定用户不需要推荐的 item 。格式为 userID, itemID

-b      输入的样本不带产品评分

-mp    设置每个用户喜好的最大数量 默认 10

-m     设置每个用户喜好的最小数量 默认 1

-mo    样本抽样

-s      相似度量方法。包括:

SIMILARITY_URRENCE(DistributedurrenceVectorSimilarity.class),

SIMILARITY_EUCLIDEAN_DISTANCE(DistributedEuclideanDistanceVectorSimilarity.class),

SIMILARITY_LOGLIKELIHOOD(DistributedLoglikelihoodVectorSimilarity.class),

SIMILARITY_PEARSON_CORRELATION(DistributedPearsonCorrelationVectorSimilarity.class),

SIMILARITY_TANIMOTO_COEFFICIENT(DistributedTanimotoCoefficientVectorSimilarity.class),

SIMILARITY_UNCENTERED_COSINE(DistributedUncenteredCosineVectorSimilarity.class),

SIMILARITY_UNCENTERED_ZERO_ASSUMING_COSINE(DistributedUncenteredZeroAssumingCosineVectorSimilarity.class),

SIMILARITY_CITY_BLOCK(DistributedCityBlockVectorSimilarity.class);

2.2 程序处理流程

Mahout 中基于 item 的推荐包括 12 MapReduce 过程。下面对每一个 MapReduce 的作用进行描述。 输入的数据以 userid  “\t” itemid  “\t”  perferenceValue 格式输入,分别表示用户编号、产品编号和该用户对该产品的评分值。

(1)      1 MapReduce :将 itemID 长整型映射到整型的序号上。这样做的目的是为后续以该序号为矩阵的一个维度,所以需要处理成整型。

(2)      2 MapReduce :统计每个用户对哪些 item 进行了评分,评分值是多少。

(3)      3 MapReduce :统计用户的总数。

(4)      4 MapReduce :统计每个 item 被哪些用户评分了,评分值是多少。

(5)      5,6,7 MapReduce :计算每个 item 与所有 item 之间的相似度。

(6)      8 MapReduce :将相同 item 之间的相似度置为 NaN

(7)      9 MapReduce :确定要推荐的用户,这些用户对哪些 item 进行了评分,评分值是多少。

(8)      10 MapReduce :根据以上的统计结果得到每个 item 与其他 item 之间的相似度,这些 item 分别被哪些用户评分了,评分值是多少。

(9)      11 MapReduce :过滤掉指定用户不需要推荐的 item

(10)   12 MapReduce :得到每个用户要推荐的 item 。这些 item 对于该用户来说是评分最高的前 n 个。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
用户协同过滤算法是一种常见的推荐算法,它通过分析用户之间的相似性,来给用户推荐相似用户喜欢的物品。具体实现方式是,首先根据用户之间的历史行为数据(如购买记录、评分记录等),计算用户之间的相似度,然后利用相似用户的历史行为数据,推荐给目标用户他们喜欢的物品。 下面是一个简单的基于用户协同过滤算法的Python代码: ```python import numpy as np # 历史行为数据 data = np.array([ [5, 3, 0, 1, 4], [1, 0, 0, 5, 1], [4, 3, 0, 0, 5], [0, 1, 5, 4, 4], [5, 4, 4, 0, 0] ]) # 计算用户相似度 def similarity(user1, user2): return np.dot(user1, user2) / (np.linalg.norm(user1) * np.linalg.norm(user2)) # 给定目标用户id,计算推荐物品列表 def recommend(target_id): target_user = data[target_id] similarities = [] for i in range(len(data)): if i != target_id: sim = similarity(target_user, data[i]) similarities.append((i, sim)) similarities.sort(key=lambda x: x, reverse=True) top_similarities = similarities[:2] recommended_items = [] for item_id in range(len(target_user)): if target_user[item_id] == 0: score = 0 count = 0 for sim_id, sim_score in top_similarities: if data[sim_id][item_id] != 0: score += sim_score * data[sim_id][item_id] count += sim_score if count > 0: recommended_items.append((item_id, score/count)) recommended_items.sort(key=lambda x: x, reverse=True) return recommended_items # 测试代码 print(recommend(0)) # 给id为0的用户推荐物品 ``` 代码中的`data`是历史行为数据矩阵,其中每一行表示一个用户对各个物品的行为数据,0表示未有行为。`similarity`函数用于计算两个用户之间的相似度,这里采用的是弦相似度计算方法。`recommend`函数则是用于给定目标用户id,计算推荐的物品列表。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值