在《python电影数据集的分析(系列一)》分析三个表前两个表的数据,以及对于三个表的数据连接。这里主要是分享三个表连接数据评分的详细分析。在系列一,最后的一个例子中没有考虑到评分者的数量,一个广受评价的电影他的评价满分,这是很有问题的,有可能只有一个观众评价,而这个观众评价的刚好是5.0分,则这部电影平均评分就是5.0分。
- 代码如下:
import pandas as pd
'''
@Function:连接观众,评分,电影数据进行分析
@Author :王育红
@Date :2020/8/21
'''
# 通过分割符'|',来表示每个列的对应的名称
unames = ['uid', 'age', 'gender', 'occupation', 'zip']
users = pd.read_table('d:\\park01\\ml-100k\\u.user', sep='|', header=None, names=unames)
# 通过分割符'\t',来表示每个列的对应的名称
rnames = ['uid', 'mid', 'rating', 'timestamp']
ratings = pd.read_table('d:\\park01\\ml-100k\\u.data', sep='\t', header=None, names=rnames)
# 这里有19个,要对应到文档中
mnames = <