Appstore评分数据python实战

本文使用Python对Appstore数据进行分析,探究了免费与付费应用在不同类别中的分布,发现游戏类别最为集中;同时,数据显示App的大小与用户评分无直接关系,但价格与大小存在正相关。通过Seaborn和matplotlib进行数据可视化,揭示了App价格分布及类别分布特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Appstore数据集中的主要字段:
id:APP的编号id
track_name:App名称
size_bytes:App的大小(单位:byte)
price:价格(单位:美元)
rating_count_tot:该App所有版本的用户评分数量
rating_count_ver:该App当前版本的用户评分数量
primae_genre:App类别
user_rating:该App所有版本的用户评分
user_rating_ver:该App当前版本的用户评分
sup_devices:支持的ios设备数量
ipadSc_urls:App提供的截屏展示数量
lang:支持的语言数量

要分析的业务问题:
1,免费或者收费的APP集中在哪些类别?
2,免费和收费的app在不同评分区间的分布情况如何?
3,app的大小和用户评分是否有关系?

打开python,开始敲代码
首先导入要用到的模块和打开数据集

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')

df=pd.read_csv(r'applestore.csv')  #打开数据

了解数据总体概括

df.head() #读取前5行的数据

在这里插入图片描述

df.describe()

在这里插入图片描述

df.info()

在这里插入图片描述
开始数据预处理
Unnamed: 0 为自动生成的记录ID,为无关变量,删除

df.drop(['Unnamed: 0'],axis=1,inplace=True)
#drop(),axis=1代表在列中寻找,0则在行中寻找。inplace=True为在原表格进行删除,Fasle为创建副本,在副本里进行删除

size_bytes为App大小,单位为byte。为了计算方便,将其转化为MB单位。

df['size_mb']=df['size_bytes']/(1024*1024)

根据price价格新增标签,将app分为0(免费)和1(付费)

df['paid']=df['price'].apply
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值