基于pandas的电影评分差异分析

最新推荐文章于 2023-07-11 14:58:36 发布

雨陌潇潇

最新推荐文章于 2023-07-11 14:58:36 发布

阅读量985

点赞数 1

分类专栏：机器学习文章标签： python 机器学习人工智能评分算法

本文链接：https://blog.csdn.net/weixin_43689805/article/details/111318895

版权

机器学习专栏收录该内容

15 篇文章 6 订阅

订阅专栏

基于pandas的电影评分差异分析

实验内容

在这里插入图片描述

数据来源

在这里插入图片描述

详细步骤


import pandas as pd
import numpy as np


unames = ['user id','age','gender','occupation','zip code']
users = pd.read_csv('ml-100k/u.user',sep ='|',names = unames) # sep定义的是每行数据间的分隔符
rnames = ['user id','item id','rating','timestamp']
ratings = pd.read_csv('ml-100k/u.data', sep = '\t',names = rnames)# names指的是每个表的列名

users_df = users.loc[:,['user id','gender']] # 做数据筛选，users中只使用'user id','gender'这两个属性
ratings_df = ratings.loc[:,['user id','rating']]
rating_df = pd.merge(users_df,ratings_df) # 把两个dataframe都有user id属性，通过merge函数连接起来

# print(rating_df)
# 按gender计算rating的标准差，先对gender进行分组，再对rating属性使用std方法
# 下面是两种计算标准差的方法，区别在于numpy的是有偏估计（使用的是1/n）,而pandas的是无偏估计（使用的是1/n-1）,更贴近于实际情况
# 1.
std1 = rating_df.groupby("gender").rating.std()
print("第一种计算std的方法")
print(std1)
# 2.
std2 = rating_df.groupby("gender").rating.apply(pd.Series.std)
print("第二种计算std的方法")
print(std2)

# 使用上述的标准差（std）确实证明了女性的评分差异比男性的更大，也说明了女性更主观，男性更逻辑

# 上述做法只是考虑了gender的分组，并没有考虑用户对所有电影打分之间的关系
# 下面采用先计算出用户的综合评分（评分均值），然后按照性别计算出标准差
df1 = rating_df.groupby(["user id", "gender"]).apply(np.mean)
std3 = df1.groupby('gender').rating.std()
print("第三种计算std的方法")
print(std3)

# 如果采用类似Excel的透视表功能（可以实现数据的动态排列和分类汇总），应当这么写，
std4 = pd.pivot_table(df1, values='rating', index='gender', aggfunc=pd.Series.std)
# 第一个参数df1是要透视的dataframe，values是设置要筛选的数据，index是分类依据（可以是多个，用[]）,
# aggfunc用来设置聚合数据用的函数，默认是mean,可以是多个函数组合，还有一个参数是columns，设置列层次，对透视后的数据在列上分类
# 容易和values混淆，values设置的是行层次。
print("第四种计算std的方法")
print(std4)

# 下面是第四种方法的整理
print("下面是第四种方法的整理")
t = pd.pivot_table(rating_df, index=['user id', 'gender'], values='rating')
print(t.query("gender == ['F']"))
female = t.query("gender == ['F']")
print(pd.Series.std(female))

源代码和数据集

链接：https://pan.baidu.com/s/1_3jkR-Ob2gGkjh8XhuRWdg
提取码：jxf7
复制这段内容后打开百度网盘手机App，操作更方便哦

实验结果

通过计算标准差，评价男女在电影评分上的理性和感性差异，可见男性的标准差相比于女性更小，继而推断出男性的评分更加的理性
下面是四种不同的标准差计算结果截图
在这里插入图片描述
下面是第四种方法的女性标准差的计算过程整理

雨陌潇潇

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于pandas的电影评分差异分析

基于pandas的电影评分差异分析实验内容数据来源详细步骤import pandas as pdimport numpy as npunames = ['user id','age','gender','occupation','zip code']users = pd.read_csv('ml-100k/u.user',sep ='|',names = unames) # sep定义的是每行数据间的分隔符rnames = ['user id','item id','rating'
复制链接

扫一扫