ch02-MovieLens-1M数据集

本文介绍了如何使用Python的Pandas库对MovieLens 1M数据集进行分析,包括载入数据、合并数据、计算性别评分均值、筛选评分数量不足的电影、找出女性最喜欢的电影以及男女评分差异最大的电影。通过数据处理揭示了用户对电影的偏好和评分分歧。
摘要由CSDN通过智能技术生成

MovieLens是一组从20世纪90年代末到21世纪初的由MovieLens用户提供的电影评分数据。这些数据其中包括了电影评分、电影元数据(类型风格和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣,这里将会告诉读者如何对数据进行切片切块以满足实际需求。

内容提要

  1. 载入pandas格式数据,并将不同文件的数据基于相同列进行合并
  2. 运用pandas对用户评分求平均值(基于不同的电影),比较性别差异(对电影的偏好),同一电影评分的分歧性
  3. 附录:pandas中整合数据常用pivot方法例程

1.载入数据

import pandas as pd
path = 'C:\\...\\pydata-book-1st-edition\\ch02\\movielens'
spl = '/'
path = spl.join(path.split('\\'))

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table(path+'/users.dat', sep='::', header = None, names=unames)
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(path+'/ratings.dat', sep='::', header=None, names = rnames)
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table(path+'/movies.dat', sep = '::', header=None, names = mnames)

首先分别从3个文件中读取数据,并存放于users, ratings, movies三个pandas的table格式中
同样的,数据可以从该书的github网页上获取:https://github.com/wesm/pydata-book/tree/1st-edition/ch02/movielens

数据呈现如下:

movies[:5]
Out[60]: 
   movie_id                               title                        genres
0         1                    Toy Story (1995)   Animation|Children's|Comedy
1         2                      Jumanji (1995)  Adventure|Children's|Fantasy
2         3             Grumpier Old Men (1995)                Comedy|Romance
3         4            Waiting to Exhale (1995)                  Comedy|Drama
4         5  Father of the Bride Part II (1995)                        Comedy
ratings[:5]
Out[61]: 
   user_id  movie_id  rating  timestamp
0        1      1193       5  978300760
1        1       661
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值