今天来试一个数据表连接及数据分析的小应用,步骤如下 :
1、 下载数据
2、 数据解读
3、 数据分析
4、总结
一、 下载数据
下载地址:https://grouplens.org/datasets/movielens/
下载内容:
二、 数据解读
1、用户表:
2、电影表
3、评分表
三、 数据分析
首先读入数据,该数据的文件类型与平时我们看到的不一样,但pandas的read_table可直接读取该类文件,方法如下:
【脚本】
ucolName = ['userId', 'age', 'gender', 'occupation', 'zip']
user = pd.read_table(r'D:\cpda\python\ml-100k\u.user', sep='|', header=None, names=ucolName)
print(user.head(2)) #取前2行看一下
【结果】
userId age gender occupation zip
0 1 24 M technician 85711
1 2 53 F other 94043
同理,读取评分文件并赋给变量ratings,表头为:
rColName = [‘userId’, ‘mID’, ‘rating’, ‘time’]
读取电影文件并赋给变量movies,表头为:
mCol