Appstore评分数据python实战_python对appstore.csv文件进行分析-CSDN博客

本文链接：https://blog.csdn.net/weixin_47015654/article/details/105751353

本文使用Python对Appstore数据进行分析，探究了免费与付费应用在不同类别中的分布，发现游戏类别最为集中；同时，数据显示App的大小与用户评分无直接关系，但价格与大小存在正相关。通过Seaborn和matplotlib进行数据可视化，揭示了App价格分布及类别分布特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Appstore数据集中的主要字段：
id：APP的编号id
track_name：App名称
size_bytes：App的大小（单位：byte）
price：价格（单位：美元）
rating_count_tot：该App所有版本的用户评分数量
rating_count_ver：该App当前版本的用户评分数量
primae_genre：App类别
user_rating：该App所有版本的用户评分
user_rating_ver：该App当前版本的用户评分
sup_devices：支持的ios设备数量
ipadSc_urls：App提供的截屏展示数量
lang：支持的语言数量

要分析的业务问题：
1，免费或者收费的APP集中在哪些类别？
2，免费和收费的app在不同评分区间的分布情况如何？
3，app的大小和用户评分是否有关系？

打开python，开始敲代码
首先导入要用到的模块和打开数据集

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')

df=pd.read_csv(r'applestore.csv')  #打开数据

了解数据总体概括

df.head() #读取前5行的数据

在这里插入图片描述

df.describe()

在这里插入图片描述

df.info()

在这里插入图片描述
开始数据预处理
Unnamed: 0 为自动生成的记录ID，为无关变量，删除

df.drop(['Unnamed: 0'],axis=1,inplace=True)
#drop（），axis=1代表在列中寻找，0则在行中寻找。inplace=True为在原表格进行删除，Fasle为创建副本，在副本里进行删除

size_bytes为App大小，单位为byte。为了计算方便，将其转化为MB单位。

df['size_mb']=df['size_bytes']/(1024*1024)

根据price价格新增标签，将app分为0（免费）和1（付费）

df['paid']=df['price'].apply