10-使用pipeline和不使用pipeline来分别实现推荐系统 pyspark

最新推荐文章于 2024-07-03 03:49:29 发布

yu1069153913

最新推荐文章于 2024-07-03 03:49:29 发布

阅读量461

点赞数

分类专栏：分布式Spark笔记文章标签： spark

本文链接：https://blog.csdn.net/yu1069153913/article/details/107672605

版权

首先不使用pipeline实现模型的训练

from pyspark.mllib.recommendation import Rating  # Rating模块
from pyspark.mllib.recommendation import ALS     # ALS模块


# 读取文件 u.data
# 数据字段分别为：用户id，项目id，评分，日期，并以\t作为分隔符
data_path = '../测试数据/spark/ml-100k/u.data'
raw_user_data = sc.textFile(data_path)

# 参看数据项，检查是否读取成功
print(raw_user_data.count())

# 读取rawUserData前三个字段，按照用户、产品、用户对此产品的评价来编写rawRatings
raw_ratings = raw_user_data.map(lambda line: line.split('\t')[:3])
# 查看前5项，检查是否映射成功
print(raw_ratings.take(5))

# 准备ALS训练数据集
# 转换为RDD格式[] 变为()
ratings_RDD = raw_ratings.map(lambda x:(x[0], x[1], x[2]))
print(ratings_RDD.take(5)) 

# 训练模型
model = ALS.train(ratings_RDD, 10, 10, 0.01)
print(model)


# 然后使用该模型进行推荐，使用model.recommendProducts方法来推荐
# 向用户100推荐他可能感兴趣的前5部电影，传入参数，
# 注：每次训练结果课可能都不相同
print(model.recommendProducts(100, 5))

# 查看针对用户推荐产品的评分
# 例如：系统针对用户100推荐产品1141的评分
print(model.predict(100, 1141))
print(type(model))

# 针对电影推荐用户
# 推荐对电影200感兴趣的前5个用户
print(model.recommendUsers(product=200, num=5))



# 显示推荐的电影名称 使用文件 u.item
item_path = '../测试数据/spark/ml-100k/u.item'
item_RDD = sc.textFile(item_path)
print(item_RDD.count())


# 为了显式推荐电影的名称，创建“电影ID与名称”的字典
movie_title = item_RDD.map(lambda line:line.split("|")).map(lambda a:(float(a[0]),a[1])